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O'Reilly Media 通 过 图 书 、 条 志 、 在 线 服 务 、 调 查 研 究 和 会 议 等 方式 传播 创新 知识 。 自 1978 年 
开始 ，O'Reilly 一 直 都 是 前 治 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关 
注 真正 重要 的 技术 趋势 一 通过 放大 那些 “细微 的 信号 ?来 刺激 社会 对 新 科技 的 应 用 。 作 为 技术 
社区 中 活路 的 参与 者 ，O'Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 发 扬 光 大 。 


O'Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”; 创建 第 一 个 商业 网 站 (GNN) ; 组 织 了 影响 
深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 革 
命 的 主要 先锋 ; 公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O'Reilly 的 会 议和 峰会 

聚 了 众多 超级 极 客 和 高 瞻 远 瞩 的 商业 领 笛 ， 共 同 描绘 出 开创 新 产业 的 革命 性 思想 。 作 为 技术 
人 士 获取 信息 的 选择 ，O'Reilly 现 在 还 将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 论 是 通 
过 书籍 出 版 ， 在 线 服 务 或 者 面授 课程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 理念 

一 一 信息 是 激发 创新 的 力量 。 


业界 评论 
“O'Reilly Radar 博 客 有 口 此 碑 。” 
一 一 Wired 
“O'Reilly 凭 借 一 系列 《真希 望 当初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 
一 一 Business 2.0 
“O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
一 一 CRN 
“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。 
一 一 Irish Times 


“Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 Yogi Berra 的 
建议 去 做 了 : 如果 你 在 路 上 遇 到 贫 路 口 ， 走 小 路 〈 贫 路 ) 。' 回 顾 过 去 Tim 似 乎 每 一 次 都 选择 
了 小 路 ， 而 且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽 管 大 路 也 不 错 。” 


一 -一 Linux Journal 
译 者 序 


说 句 真心 话 ， 我 非常 感谢 有 机 会 翻译 这 本 书 ， 所 以 这 可 算是 第 一 篇 我 自己 真正 想 写 的 译 者 
序 。 虽 然 之 前 也 翻译 过 好 几 本 书 ， 但 都 没有 这 次 的 感悟 这 么 多 、 这 么 深 ! 这 本 书 是 我 花 精 力 
和 时 间 最 多 ， 同 时 也 是 最 不 满意 的 一 本 ， 就 是 因为 这 些 感悟 一 一 我 始终 觉得 ， 如 果 再 多 点 时 
间 的 话 ， 我 还 可 以 翻译 得 更 好 。 


本 书 的 内 容 非 常 好 ， 至 少 有 一 点 非常 好 一 集中 火力 对 付 特 定 的 应 用 领域 。 市 面 上 介绍 编程 
的 书 多 如 牛 毛 ， 但 几乎 没有 几 本 书 是 针对 特定 应 用 场景 的 。 这 本 书 对 新 手 来 说 绝对 是 福音 ， 
因为 每 看 完 一 点 就 可 以 马上 将 自己 手 上 的 工作 直接 拿 来 当 例子 练 手 ， 这 种 立竿见影 的 学 习 效 
果 ， 绝 对 会 增强 新 手 的 学 习 信心 。 





本 书 内 容 虽 好 ， 但 由 于 作者 是 编辑 界 牛 人 ， 平 时 的 工作 肯定 不 少 ， 写 书 方面 的 精力 自然 就 不 
可 能 太 多 。 加 之 美式 英语 本 来 就 很 口语 化 ， 导 致 原 书 口水 话 非 常 多 ， 有 些 地 方 的 从 句 跟 绕 口 
今 似 的 。 我 在 翻译 的 过 程 中 尽量 排除 了 一 些 ， 两 次 校 稿 的 过 程 中 又 删除 或 大 幅 修改 了 一 些 废 
话 ， 虽 然 这 种 "口水 话 "还 存在 不 少 ， 但 至 少 不 会 对 阅读 造成 太 大 影响 。 如 果实 在 觉得 语言 不 通 
顺 ， 请 随时 发 邮件 给 我 ， 欢 迎 大 家 的 善意 指导 (tonytang1999@126.com) 。 

此 外 ， 在 翻译 的 过 程 中 发 现 了 不 少 小 问题 ， 用 词 方面 的 错误 几乎 都 是 直接 改 的 (小 部 分 写 了 
译 者 注 ， 因 为 编辑 要 求 我 尽量 标 出 一 些 来 以 便 核对 ) ， 而 其 他 错误 则 几乎 全 部 采用 译 者 注 的 
形式 说 明 ， 还 有 一 些 原文 有 歧义 或 不 详尽 的 地 方 也 通过 译 者 注 的 形式 给 出 了 简单 说 明 。 


本 书 共 12 章 ， 除 非 你 已 经 什么 都 会 了 ， 否 则 我 建议 全 部 阅读 。 如 果 没 有 学 过 Python， 建 议 先 
看 看 本 书后 面 的 附录 。 本 书 所 用 到 的 Python 编程 基础 知识 很 少 ， 所 以 只 看 那个 附录 完全 足够 
了 。 但 是 ， 如 果 你 一 点 儿 编 程 基础 都 没有 的 话 ， 可 能 需要 再 看 一 本 有 关 Python 入 门 的 书 才 行 
(比如 《Python 编程 实践 》 编 注 1) 。 


对 了 ， 还 有 几 件 事情 需要 说 明 一 下 : 


.每 章 的 代码 示例 最 好 在 一 个 IPython 会 话 中 完成 ， 否 则 可 能 会 出 现 一 些 不 必要 的 麻烦 ， 比 
如 “xxx 未 定义 ”。 


-如果 在 Windows 里 面 用 IPython， 复 制 代 码 的 时 候 建 议 使 用 cpaste， 这 个 不 多 解释 了 。 


“有 关 地 图 的 那 段 代码 可 能 需要 找 英 文 资料 看 才 行 ， 我 在 译 者 注 中 也 说 明了 。 这 可 能 需要 花 不 
少时 间 和 精力 。 


:由 于 原文 各 种 说 法 不 统一 (其 至 包括 术语 ) ， 虽 然 我 尽量 做 了 统一 处 理 ， 但 由 于 精力 和 时 间 
有 限 ， 无 法 完全 修改 ， 所 以 译文 中 的 "xxx 接受 yyy”“ 将 yyy 传 人 xxx" 说 的 都 是 "xxx 本 数 有 yyy 这 
么 个 参数 ” ; "选项 “位置 参 数 ` “关键 字 参 数 `“ 形 参 、“ 实 参 "说 的 都 是 "参数 `.……: 还 有 不 
少 ， 我 也 记 不 清 了 。 


“金融 和 经 济 数 据 " 那 一 章 翻译 得 非常 痛苦 ， 因 为 我 根本 不 了 解 那个 行业 ， 原 文 的 术语 又 不 标 
准 ， 于 是 我 基本 都 是 用 wikipedia 和 bing 查 英文 资料 ， 看 懂 之 后 再 到 baidu 找 中 文 资料 ， 并 最 终 
确定 译文 。 因 此 ， 可 能 会 有 不 准确 的 情况 ， 如 果 您 发 现 了 ， 请 及 时 通过 邮件 告诉 我 ， 万 分 感 
谢 。 

此 外 ， 我 必须 感谢 华章 公司 的 编辑 们 。 非 常 感谢 他 们 能 够 给 我 这 样 的 机 会 ， 也 非常 感谢 他 们 
在 整个 过 程 中 给 予 我 的 各 种 支持 和 理解 。 希 望 以 后 还 能 有 更 加 愉快 的 合作 。 

本 书 大 部 分 内 容 的 翻译 工作 以 及 全 书 的 统 稿 工作 由 我 完成 ， 参 与 本 书 翻译 校对 工作 的 还 有 黄 
惠 庄 、 卢 彦 良 、 蒲 巧 惠 、 陈 丽 丽 、 胡 元 江 、 张 杨 、 赵 杰 、 吴 刀 、 郭 敏 、 林 丹 、 王 路 等 。 


由 于 译 者 水 平 有 限 ， 书 中 肯定 会 存在 一 些 错 误 或 不 妥 之 处 ， 因 此 ， 在 阅读 过 程 中 发 现 有 任何 
问题 ， 请 随时 联系 我 们 (tonytang1999@126.com) 或 机 械 工业 出 版 社 ， 我 们 将 及 时 更 新 本 书 
的 勘误 表 。 当 然 ， 也 非常 欢迎 大 家 对 本 书 提出 宝贵 的 意见 和 建议 。 


唐 学 榈 

2013 年 6 月 于 广州 

编 注 1 

:本 书 已 由 机 械 工业 出 版 社 出 版 ，ISBN:978-7-111-36478-8。 
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针对 科学 计算 领域 的 Python 开源 库 生 态 系统 在 过 去 10 年 中 得 到 了 飞速 发 展 。2011 年 底 ， 我 深 
深 地 感觉 到 ， 由 于 缺乏 集中 的 学 习 资 源 ， 刚 刚 接触 数据 分 析 和 统计 应 用 的 Python 程序 员 举 步 
维 艰 。 针 对 数据 分 析 的 关键 项 目 (尤其 是 NumPy、matplotlib 和 pandas) 已 经 很 成 熟 了 ， 也 就 
是 说 ， 写 一 本 专门 介绍 它们 的 图 书 貌 似 不 会 很 快 过 时 。 因 此 ， 我 下 定 决 心 要 开始 这 样 的 一 个 
写作 项 目 。 我 在 2007 年 刚 开 始 用 Python 进行 数据 分 析 工 作 时 就 希望 能 够 得 到 这 样 一 本 书 。 和 希 
望 你 也 能 觉得 本 书 有 用 ， 同 时 也 希望 你 能 将 书 中 介绍 的 那些 工具 高 效 地 运用 到 实际 工作 中 
去 。 


本 书 的 约定 
本 书 使 用 了 以 下 排版 约定 : 


斜体 (ltalic) 
用 于 新 术语 、URL、 电 子 邮 件 地 址 、 文 件 名 与 文件 扩展 名 。 
等 宽 字体 (Constant width) 


用 于 表明 程序 清单 ， 以 及 在 段落 中 引用 的 程序 中 的 元 素 ， 如 变量 、 辑 数 名 、 数 据 库 、 数 据 类 
型 、 环 境 变 量 、 语 句 、 关 键 字 等 。 


等 宽 粗 体 (Constant width bold) 

用 于 表明 命 舍 ， 或 者 需要 读者 逐 字 输 入 的 文本 内 容 。 

等 宽 斜 体 (Constant width italic) 

用 于 表示 需要 使 用 用 户 提供 的 值 或 者 由 上 下 文 决定 的 值 来 蔡 代 的 文本 内 容 。 
: 代表 一 个 技巧 、 建 议 或 一 般 性 说 明 。 

告 : 代表 一 个 警告 或 注意 事项 。 

示例 代码 的 使 用 


本 书 提供 代码 的 目的 是 帮 你 快速 完成 工作 。 一 般 情 况 下 ， 你 可 以 在 你 的 程序 或 文档 中 使 用 本 
书 中 的 代码 ， 而 不 必 取 得 我 们 的 许可 ， 除 非 你 想 复制 书 中 很 大 一 部 分 代码 。 例 如 ， 你 在 编写 
程序 时 ， 用 到 了 本 书 中 的 几 个 代码 片段 ， 这 不 必 取 得 我 们 的 许可 。 但 若 将 O 扒 eilly 图 书 中 的 代 
码 制作 成 光盘 并 进行 出 售 或 传播 ， 则 需 获 得 我 们 的 许可 。 引 用 示例 代码 或 书 中 内 容 来 解答 问 
题 无 需 许 可 。 将 书 中 很 大 一 部 分 的 示例 代码 用 于 你 个 人 的 产品 文档 ， 这 需要 我 们 的 许可 。 


前 
谢 


哗 


如 果 你 引用 了 本 书 的 内 容 并 标明 版 权 为 属 声 明 ， 我 们 对 此 表示 感谢 ， 但 这 不 是 必需 的 。 版 权 
轨 属 声明 通常 包括 : 标题 、 作 者 、 出 版 社 和 |ISBN 号 ， 例 如 : "Python for Data Analysis by 
William Wesley MckKinney (O'eilly).Copyright 2013William Wesley McKinney,978-1-449- 
31979-3"。 


如 果 你 认为 你 对 示例 代码 的 使 用 已 经 超出 上 述 范围 ， 或 者 你 对 是 否 需要 获得 示例 代码 的 授权 


还 不 清楚 ， 请 随时 联系 我 们 : permissions@oreilly.com。 


联系 我 们 

有 关 本 书 的 任何 建议 和 疑问 ， 可 以 通过 下 列 方式 与 我 们 取得 联系 : 
美国 : 

O'eilly Media,Inc. 

1005Gravenstein Highway North 

Sebastopol,CA 95472 

中 国 : 

北京 市 西城 区 西直门 南大 街 2 号 成 馈 大 厦 C 座 807 室 (100035) 

奥 莱 利 技术 咨询 (北京 ) 有 限 公 司 


我 们 会 在 本 书 的 网 页 中 列 出 勘误 表 、 示 例 和 其 他 信息 。 可 以 通过 
http://oreil.ly/Python_for_Data_Analysis 访 问 该 页 面 。 


要 评论 或 询问 本 书 的 技术 问题 ， 请 发 送 电子 邮件 到 : 
bookquestions@oreilly.com 

想 了 解 关 于 O'eilly 图 书 、 课 程 、 会 议和 新 闻 的 更 多 信息 ， 请 访问 以 下 网 站 : 
http://www .oreilly.com.cn 

http://www .oreilly.com 

还 可 以 通过 以 下 网 站 关注 我 们 : 

我 们 在 Facebook 上 的 主页 : http://facebook.com/oreilly 

我 们 在 Twitter 上 的 主页 : http://twitter.com/oreillymedia 

我 们 在 YouTube 上 的 主页 : http://www.youtube.com/oreillymedia 
第 1 章 ”准备 工作 

本 书 主要 内 容 


本 书 讲 的 是 利用 Python 进 行 数 据 控制 、 处 理 、 整 理 、 分 析 等 方面 的 具体 细节 和 基本 要 点 。 同 
时 ， 它 也 是 利用 Python 进行 科学 计算 的 实用 指南 〈 专 门 针 对 数据 密集 型 应 用 ) 。 本 书 重 点 介 
绍 了 用 于 高 效 解决 各 种 数据 分 析 问 题 的 Python 语言 和 库 。 本 书 没有 半 述 如 何 利 用 Python 实现 
具体 的 分 析 方 法 。 


当 书 中 出 现 “ 数 据 " 时 ， 铬 竟 指 的 是 什么 呢 ?主要 指 的 是 结构 化 数据 (structured data) ， 这 个 
故意 含糊 其 辞 的 术语 代 指 了 所 有 通用 格式 的 数据 ， 例 如 : 


多维 数 组 〈 矩 阵 ) 。 


表格 型 数据 ， 其 中 各 列 可 能 是 不 同 的 类 型 (字符 串 、 数 值 、 日 期 等 ) 。 比 如 保存 在 关系 型 数 
据 库 中 或 以 制 表 符 / 喜 号 为 分 隔 符 的 文本 文件 中 的 那些 数据 。 


通过 关键 列 ( 对 于 SQL 用 户 而 言 ， 就 是 主键 和 外 键 ) 相互 联系 的 多 个 表 。 
间隔 平均 或 不 平均 的 时 间 序 列 。 


这 绝 不 是 一 个 完整 的 列表 。 大 部 分 数据 集 都 能 被 转化 为 更 加 适合 分 析 和 建 模 的 结构 化 形式 ， 
虽然 有 时 这 并 不 是 很 明显 。 如 果 不 行 的 话 ， 也 可 以 将 数据 集 的 特征 提取 为 某 种 结构 化 形式 。 
例如 ， 一 组 新 闻 文 章 可 以 被 处 理 为 一 张 词 频 表 ， 而 这 张 词 频 表 就 可 以 用 于 情感 分 析 。 


大 部 分 电子 表格 软件 (比如 Microsoft Excel， 它 可 能 是 世界 上 使 用 最 广泛 的 数据 分 析 工 具 了 ) 
的 用 户 不 会 对 此 类 数据 感到 陌生 。 


为 什么 要 使 用 Python 进 行 数据 分 析 


许 许多 多 的 人 (包括 我 自己 ) 都 很 容易 爱 上 Python 这 门 语言 。 自 从 1991 年 诞生 以 来 ，Python 
现在 已 经 成 为 最 受 欢迎 的 动态 编程 语言 之 一 ， 其 他 还 有 Perl、Ruby 等 。 由 于 拥有 大 量 的 Web 
框架 (比如 Rails (Ruby) 和 Django (Python) ) ， 最 近 几 年 非常 流行 使 用 Python 和 Ruby 进 
行 网 站 建设 工作 。 这 些 语 言 常 被 称 作 脚本 (scripting) 语言 ， 因 为 它们 可 以 用 于 编写 简短 而 粗 
糙 的 小 程序 (也 就 是 脚本 ) 。 我 个 人 并 不 喜欢 "脚本 语言 "这 个 术语 ， 因 为 它 好像 在 说 这 些 语言 
无 法 用 于 构建 严 说 的 软件 。 在 众多 解释 型 语言 中 ，Python 最 大 的 特点 是 拥有 一 个 巨大 而 活跃 

的 科学 计算 (scientific computing) 社区 。 进 入 21 世 纪 以 来 ， 在 行业 应 用 和 学 术 研究 中 采用 

Python 进行 科学 计算 的 势头 越 来 越 猛 。 


在 数据 分 析 和 交互 、 探 索性 计算 以 及 数据 可 视 化 等 方面 ，Python 将 不 可 避免 地 接近 于 其 他 开 
源 和 商业 的 领域 特定 编程 语言 /工具 ， 如 R、MATLAB、SAS、Stata 等 。 近 年 来 ， 由 于 Python 
有 不 断 改良 的 库 (主要 是 pandas) ， 使 其 成 为 数据 义理 任务 的 一 大 替代 方案 。 结 合 其 在 通用 
编程 方面 的 强大 实力 ， 我 们 完全 可 以 只 使 用 Python 这 一 种 语言 去 构建 以 数据 为 中 心 的 应 用 程 
序 。 


把 Python 当做 粘 合剂 


作为 一 个 科学 计算 平台 ，Python 的 成 功 部 分 源 于 其 能 够 轻松 地 集成 C、C++ 以 及 Fortran 代 
码 。 大 部 分 现代 计算 环境 都 利用 了 一 些 Fortran 和 C 库 来 实现 线性 代数 、 优 选 、 积 分 、 快 速 傅 
里 叶 变换 以 及 其 他 诸如 此 类 的 算法 。 许 多 企业 和 国家 实验 室 也 利用 Python 来 “ 粘 合 ” 那 些 已 经 用 
了 30 多 年 的 遗留 软件 系统 。 

大 多 数 软件 都 是 由 两 部 分 代码 组 成 的 : 少量 需要 占用 大 部 分 执行 时 间 的 代码 ， 以 及 大 量 不 经 
常 执行 的 " 粘 合剂 代码 "。 粘 合剂 代码 的 执行 时 间 通 常 是 微不足道 的 。 开 发 人 员 的 精力 几乎 都 是 
花 在 优化 计算 瓶颈 上 面 的 ， 有 时 更 是 直接 转 用 更 低级 的 语言 (上 比如 C) 。 


最 近 这 几 年 ，Cython 项 目 (http://cython.org) 已 经 成 为 Python 领域 中 创建 编译 型 扩展 以 及 对 
接 C/C++ 代 码 的 一 大 途径 。 


解决 “两 种 语言 "问题 


很 多 组 织 通常 都 会 用 一 种 类 似 于 领域 特定 的 计算 语言 (如 MATLAB 和 R) 对 新 的 想法 进行 研 

究 、 原 型 构建 和 测试 ， 然 后 再 将 这 些 想 法 移植 到 某 个 更 大 的 生产 系统 中 去 (可 能 是 用 Java、 

C# 或 C++ 编写 的 ) 。 人 们 逐渐 意识 到 ，Python 不 人 适用 于 研究 和 原型 构建 ， 同 时 也 适用 于 构 
建生 产 系统 。 我 相信 越 来 越 多 的 企业 也 会 这 样 看 ， 因 为 研究 人 员 和 工程 技术 人 员 使 用 同一 种 
编程 工具 将 会 给 企业 带 来 非常 显著 的 组 织 效益 。 


为 什么 不 选 Python 


虽然 Python 非常 适合 构建 计算 密集 型 科学 占用 程序 以 及 几乎 各 种 各 祥 的 通用 系统 ， 但 它 对 于 
不 少 应 用 场景 仍然 力 有 不 隶 。 


由 于 Python 是 一 种 解释 型 编程 语言 ， 因 此 大 部 分 Python 代码 都 要 比 用 编译 型 语言 (比如 Java 
和 C++) 编写 的 代码 运行 慢 得 多 。 由 于 程序 员 的 时 间 通 常 都 比 CPU 时 间 值 钱 ， 因 此 许多 人 也 

愿意 在 这 里 做 一 些 权衡 。 但 是 ， 在 那些 要 求 延 迟 非常 小 的 应 用 程序 中 〈 例 如 高 频 交 易 系 

统 ) ， 为 了 尽 最 大 可 能 地 优化 性 能 ， 耗 费时 间 使 用 诸如 C++ 这 样 更 低级 、 更 低 生 产 率 的 语言 进 
行 编程 也 是 值得 的 。 


对 于 高 并 发 、 多 线程 的 应 用 程序 而 言 (尤其 是 拥有 许多 计算 密集 型 线程 的 应 用 程序 ) ， 
Python 并 不 是 一 种 理想 的 编程 语言 。 这 是 因为 Python 有 一 个 叫做 全 局 解释 器 锁 (Global 
Interpreter Lock，GIL) 的 东西 ， 这 是 一 种 防止 解释 器 同时 执行 多 条 Python 字 节 码 指令 的 机 
制 。 有 关 “ 为 什么 会 存在 GIL” 的 技术 性 原因 超出 了 本 书 的 范围 ， 但 是 就 目前 来 看 ，GIL 并 不 会 在 
吾 时 间 内 消失 。 虽 然 很 多 大 数据 处 理应 用 程序 为 了 能 在 较 短 的 时 间 内 完成 数据 集 的 处 理工 作 
都 需要 运行 在 计算 机 集群 上 上， 但 是 仍然 有 一 些 情况 需要 用 单 进程 多 线程 系统 来 解决 。 


这 并 不 是 说 Python 不 能 执行 真正 的 多 线程 并 行 代码 ， 只 不 过 这 些 代码 不 能 在 单个 Python 进程 
中 执行 而 已 。 比 如 说 ，Cython 项 目 可 以 集成 OpenMP 〈 一 个 用 于 并 行 计 算 的 C 框 架 ) 以 实现 并 
行 处 理 循环 进而 大 幅度 提高 数值 算法 的 速度 。 


重要 的 Python 库 


考虑 到 那些 还 不 太 了 解 Python 科 学 计算 生态 系统 和 库 的 读者 ， 下 面 我 先 对 各 个 库 做 一 个 简单 
的 介绍 。 


NumPy 


NumPy (Numerical Python 的 简称 ) 是 Python 科学 计算 的 基础 包 。 本 书 大 部 分 内 容 都 基于 
NumPy 以 及 构建 于 其 上 的 库 。 它 提供 了 以 下 功能 (不 限于 此 ) 


-快速 高 效 的 多 维 数组 对 象 ndarray。 

.用 于 对 数组 执行 元 素 级 计算 以 及 直接 对 数组 执行 数学 运算 的 函数 。 
:用 于 读 写 硬盘 上 基于 数组 的 数据 集 的 工具 。 

:线性 代数 运算 、 侍 里 叶 变 换 ， 以 及 随机 数 生成 。 


:用 于 将 C、C++、Fortran 代 码 集成 到 Python 的 工具 。 


除了 为 Python 提 供 快速 的 数组 处 理 能 力 ，NumPy 在 数据 分 析 方 面 还 有 另外 一 个 主要 作用 ， 即 
作为 在 算法 之 间 传 递 数据 的 容器 。 对 于 数值 型 数据 ，NumpPy 数 组 在 存储 和 人 处理 数 据 时 要 上 比 内 
置 的 Python 数 据 结 构 高 效 得 多 。 此 外 ， 由 低级 语言 (比如 C 和 Fortran) 编写 的 库 可 以 直接 操 
作 NumPy 数 组 中 的 数据 ， 无 需 进 行 任何 数据 复制 工作 。 


pandas 


pandas 提 供 了 使 我 们 能 够 快速 便捷 地 处 理 结构 化 数据 的 大 量 数据 结构 和 轿 数 。 你 很 快 就 会 发 
现 ， 它 是 使 Python 成 为 强大 而 高 效 的 数据 分 析 环 境 的 重要 因素 之 一 。 本 书 用 得 最 多 的 pandas 
对 象 是 DataFrame， 它 是 一 个 面向 列 (column-oriented) 的 二 维 表 结 构 ， 且 含有 行 标 和 列 
标 : 


frame total bill tip sex smoker day time size1 16.99 1.01 Female No Sun 
Dinner 22 10.34 1.66 Male No Sun Dinner 33 21.01 3.5 Male No Sun Dinner 
34 23.68 3.31 Male No Sun Dinner 25 24.59 3.61 Female No Sun Dinner 46 
25.2 4.71 Male No Sun Dinner 47 8.77 2 Male No Sun Dinner 28 26.88 3.12 
Male No Sun Dinner 49 15.04 1.96 Male No Sun Dinner 210 14.78 3.23 Male 
No Sun Dinner 2 


pandas 兼 具 NumPy 高 性 能 的 数组 计算 功能 以 及 电子 表格 和 关系 型 数据 库 (如 SQL) 灵活 的 数 
据 处 理 功 能 。 它 提供 了 复杂 精细 的 索引 功能 ， 以 便 更 为 便捷 地 完成 重 塑 、 切 片 和 切 块 、 聚 合 
以 及 选取 数据 子 集 等 操作 。pandas 将 是 我 在 本 书 中 使 用 的 主要 工具 。 


对 于 金融 行业 的 用 户 ，pandas 提 供 了 大 量 适 用 于 金融 数据 的 高 性 能 时 间 序 列 功能 和 工具 。 事 
实 上 ， 我 一 开始 就 是 想 把 pandas 设 计 为 一 款 适 用 于 金融 数据 分 析 应 用 的 工具 。 


对 于 使 用 R 语 言 进行 统计 计算 的 用 户 ， 肯 定 不 会 对 DataFrame 这 个 名 字 感 到 陌生 ， 因 为 它 源 自 
于 R 的 data.frame 对 象 。 但 是 这 两 个 对 象 并 不 相同 。R 的 data.frame 对 象 所 提供 的 功能 只 是 
DataFrame 对 象 所 提供 的 功能 的 一 个 子 集 。 虽 然 本 书 讲 的 是 Python， 但 我 偶尔 还 是 会 用 R 做 对 
比 ， 因 为 它 毕 竟 是 最 流行 的 开源 数据 分 析 环 境 ， 而 且 很 多 读者 都 对 它 很 熟悉 。 


pandas 这 个 名 字 本 身 源 自 于 panel data (面板 数据 ， 这 是 计量 经 济 学 中 关于 多 维 结构 化 数据 
集 的 一 个 术语 ) 以 及 Python data analysis (Python 数据 分 析 ) 。 


matplotlib 


matplotlib 是 最 流行 的 用 于 绘制 数据 图 表 的 Python 库 。 它 最 初 由 John D.Hunter (JDH) 创建 ， 
目前 由 一 个 庞大 的 开发 人 员 团 队 维 护 。 它 非常 适合 创建 出 版 物 上 用 的 图 表 。 它 跟 IPython ( 马 
上 就 会 讲 到 ) 结合 得 很 好 ， 因 而 提供 了 一 种 非常 好 用 的 交互 式 数据 绘图 环境 。 绘 制 的 图 表 也 
是 交互 式 的 ， 你 可 以 利用 绘图 窗口 中 的 工具 栏 放大 图 表 中 的 某 个 区 域 或 对 整个 图 表 进 行 平移 


浏览 。 


IPython 


IPython 是 Python 科学 计算 标准 工具 集 的 组 成 部 分 ， 它 将 其 他 所 有 的 东西 联系 到 了 一 起 。 它 为 
交互 式 和 探索 式 计 算 提 供 了 一 个 强健 而 高 效 的 环境 。 它 是 一 个 增强 的 Python shell， 目 的 是 提 
高 编写 、 测 试 、 调 斌 Python 代码 的 速度 。 它 主要 用 于 交互 式 数 据 处理 和 利用 matplotlib 对 数据 
进行 可 视 化 处 理 。 我 在 用 Python 编程 时 ， 经 常会 用 到 IPython， 包 括 运 行 、 调 试 和 测试 代码 。 
除 标准 的 基于 终端 的 IPython shell 外 ， 该 项 目 还 提供 了 : 


目 还 
:一 个 类 似 于 Mathematica 的 HTML 笔 记 本 〈 通 过 Web 浏 览 器 连接 IPython， 稍 后 将 对 此 进行 详 
细 介 绍 ) 。 


一 个 基于 Qt 框架 的 GUI 控制 台 ， 其 中 含有 绘图 、 多 行 编辑 以 及 语法 高 之 显示 等 功能 。 
:用 于 交互 式 并 行 和 分 布 式 计 算 的 基础 架构 。 


我 将 在 一 章 中 专门 讲解 IPython， 详 细 地 介绍 其 大 部 分 功能 。 强 烈 建议 在 阅读 本 书 的 过 程 中 使 
用 IPython。 


SciPy 

SciPy 是 一 组 专门 解决 科学 计算 中 各 种 标准 问题 域 的 包 的 集合 ， 主 要 包括 下 面 这 些 包 : 
“scipy.integrate : 数值 积分 例 程 和 微分 方程 求解 器 。 

:scipy.linalg : 扩展 了 由 numpylinalg 提 供 的 线性 代数 例 程 和 矩阵 分 解 功 能 。 
'Scipy.optimize : 男 数 优化 器 (最 小 化 器 ) 以 及 根 查 找 算法 。 

“scipy.signal : 信号 处 理工 具 。 

scipy.sparse : 稀 足 和 矩阵 和 稀 琉 线性 系统 求解 器 。 


“scipy.special : SPECFUN (这 是 一 个 实现 了 许多 常用 数学 函数 〈 如 伽 玛 函数 ) 的 Fortran 库 ) 
的 包装 器 。 


“scipy.stats : 标准 连续 和 离散 概率 分 布 〈 如 密度 函数 、 采 样 器 、 连 续 分 布 本 数 等 ) 、 各 种 统计 
检验 方法 ， 以 及 更 好 的 描述 统计 法 。 


:scipy.weave : 利用 内 联 C++ 代码 加 速 数组 计算 的 工具 。 
NumPy 跟 SciPy 的 有 机 结合 完全 可 以 替代 MATLAB 的 计算 功能 (包括 其 插件 工具 箱 ) 。 
安装 和 设置 


由 于 人 们 用 Python 所 做 的 事情 不 同 ， 所 以 没有 一 个 普 适 的 Python 及 其 插件 包 的 安装 方案 。 由 
于 许多 读者 的 Python 科学 计算 环境 都 不 能 完全 满足 本 书 的 需要 ， 所 以 接 下 来 我 将 详细 介绍 各 
个 操作 系统 上 的 安装 方法 。 我 建议 使 用 下 列 Python 安 装 包 之 一 : 


Enthought Python Distribution 译 注 1 : 来 自 Enthought (http://continumm.io/downloads) 的 
面向 科学 计算 的 Python 安装 包 。 包 括 EPDFree (免费 的 基本 版 ， 带 有 NumPy、SciPy、 
matplotlib、Chaco 以 及 IPython) 和 EPD Full (完整 版 ， 含 有 100 多 个 针对 各 种 领域 的 科学 计 
算 包 ) 。EPD Full 对 高 校 免 费 ， 非 高 校 用 户 需 要 缴纳 年 费 。 


:Python(x,y) (http://pythonxy.googlecode.com) : Windows 平 台 上 免费 的 Python 科 学 计算 安 
装 包 。 


我 将 用 EPDFree 来 说 明 安装 过 程 ， 当 然 如 果 有 需要 的 话 ， 你 也 可 以 选择 其 他 产品 。 ee 
时 ，EPD 用 的 是 Python 2.7， 今 后 可 能 会 有 些 变动 。 安 装 完毕 之 后 ， 你 将 可 以 用 到 下 面 这 
包 : 


.Python 科学 计算 基础 库 : NumPy、SciPy、matplotlib 以 及 IPython。 这 些 都 包含 在 EPDFree 
中 了 。 


-IPython Notebook 依 赖 项 : tornado 和 pyzmq。 这 些 也 都 包含 在 EPDFree 中 了 。 
:pandas (0.8.2 版 或 更 高 版 本 ) 。 


在 阅读 本 书 的 过 程 中 ， 你 可 能 还 需要 安装 : statsmodels、PyTables、PyQt (PySide 也 行 ) 、 
xlrd、Ixml、basemap、pymongo 以 及 requests 等 (它们 被 用 在 不 同 的 示例 中 ) 。 现 在 暂时 还 
不 需要 安装 这 些 库 ， 我 建议 你 在 需要 的 时 候 再 安装 。 例 如 ， 在 OS X 或 Linux 上 安装 PyQt 或 
PyTables 可 能 会 很 困难 。 目 前 最 重要 的 事情 是 先 用 EPDFree 和 pandas 这 种 最 小 配置 运行 起 来 
再 说 。 


关于 各 个 Python 库 及 其 安装 文件 和 帮助 信息 ， 请 访问 Python Package Index 〈 即 PyPl， 
http://pypi.python.org) 。 你 还 可 以 在 这 里 找到 不 少 新 的 Python 库 。 


注意 : 为 了 简单 起 见 ， 我 将 不 会 讨论 pip 译 注 2 和 virtualenv 这 类 比较 复杂 的 环境 管理 工具 。 网 
上 可 以 找到 许多 介绍 这 些 工 具 的 优秀 教程 。 


警告 : 有 些 用 户 可 能 会 对 诸如 IronPython、Jython、PyPy 之 类 的 Python 实现 感 兴趣 。 为 了 使 
用 本 书 所 介绍 的 那些 工具 ， (目前 ) 就 需要 使 用 基于 C 的 标准 Python 解释 器 (也 就 是 
CPython) 。 


Windows 


先 从 http://www.enthought.com 下 载 EPDFree 的 安装 包 ， 它 可 能 是 一 个 名 字 类 似 于 epd_free- 

7.3-1-win-x86.msi 的 MSI 安 装 包 [译注 3](#809468440711498- 

YiZhu 3 You Yu_Ruan_ Jian Ban Ben Geng Xin Jiao Kuai Suo Yi Jian_YiLDao_Wa 
ng_Shang_Zhao Yi Ge Yi Mo Yi Yang De An Zhuang Bao Bu Ran You Xie Li Zi 
De Jie Guo Ke Neng Hui Gen Shu Shang Jie _)。 运 行 该 安装 包 并 接受 默认 的 安装 

位 置 C\Python27。 如 果 你 之 前 在 这 里 安装 过 Python， 可 能 需要 先 将 其 删除 〈 可 以 手工 删除 ， 

也 可 以 使 用 控制 面板 中 的 "添加 /或 删除 程序 "功能 ) 。 








接 下 来 ， 你 需要 验证 是 否 已 经 成 功 将 Python 添加 到 系统 路 径 ， 并 且 没 有 跟 早 期 安装 的 Python 
版 本 发 生 冲 突 。 首 先 ， 打 开 命 合 提 示 符 (打开 “开始 "菜单 ， 和 启动 "命令 提示 符 " 应 用 程序 ， 即 
cmd.exe) 。 输 入 python 党 试 启动 Python 解释 器 。 你 应 该 可 以 看 到 和 与 已 安装 的 EPDFree 版 本 
相 匹 配 的 一 段 消息 : 


C:\Users\Wes>pythonPython 2.7.3 |EPD_free 7.3-1 (32-bit)| (default, Apr 12 2012, 14:30:37) 
on win32Type "credits", "demo" or "enthought" for more information.>>> 


如 果 你 看 到 的 是 其 他 版 本 的 EPD 信 息 或 根本 什么 也 看 不 到 ， 那 就 需要 清理 Windows 环 境 变 
量 。 在 Windows 7 上 ， 可 以 在 程序 搜索 框 中 输入 "environment variables"， 然 后 编辑 你 的 账户 
下 的 环境 变量 。 在 Windows XP 上 ， 需 要 进入 “控制 面板 ”一 "系统 "一 “高 级 ”一 "环境 变量 "。 在 弹 
出 窗口 中 找到 Path 变 量 。 它 需要 含有 下 面 这 两 个 以 分 号 隔 开 的 目录 路 径 : 


Ci:\Python27;C:\Python27\Scripts 


如 果 你 之 前 安装 > ee 那 就 需要 删除 系统 和 用 户 Path 变 量 中 与 之 相关 的 一 切 
路 径 。 修 改 路 径 之 后 ， 需 要 重启 命令 提示 符 才 能 使 修改 生效 。 


能 够 在 命令 下 yn 就 该 安装 pandas 了 。 最 简单 的 办 法 就 是 直接 到 
http://pypi.python.org/pypi/pandas 下 载 合 适 的 二 进 制 安装 包 。 对 于 EPDFree， 应 该 选择 
pandas-0.9.0.win32-py2.7.exe。 将 其 安装 好 之 后 ， 接 下 来 启动 IPython 来 验证 一 下 是 不 是 万 事 
俱 备 了 : 引入 pandas， 然 后 绘制 一 个 简单 的 matplotlib 图 形 。 


C:\Users\Wes>ipython --pylabPython 2.7.3 |EPD _free 7.3-1 (32-bit)|Type "copyright ， 
"credits" or "license" for more information.IPython 0.12.1 -- An enhanced Interactive 
Python.? -> Introduction and overview of IPython's features.%quickref -> Quick 
reference.help -> Python's own help system.object? -> Details about 'object', use 'object??' 
for extra details.Welcome to pylab, a matplotlib-based Python environment [backend: 
WXAgg]. For more information, type 'help(pylab)'.In [1]: import pandasln [2]: plot(arange(10)) 


如 果 成 功 ， 就 不 会 出 现 错误 信息 ， 会 弹出 一 个 绘图 窗口 。 还 可 以 输入 下 列 指令 译注 4 来 检 
查 IPython HTML ee : 


$ ipython notebook --pylab=inline 


警告 : 如 果 你 是 在 Windows 上 使 用 IPython notebook 应 用 程序 而 且 通 常 使 用 的 是 Internet 
Explorer 的 话 ， 那 你 可 能 需要 改 用 Mozilla Firefox 或 Google Chrome 了 译注 5。 


Windows 上 的 EPDFree 只 有 32 位 版 本 。 如 果 需 要 使 用 64 位 版 本 ， 最 简单 的 办 法 就 是 直接 使 用 
EPD Full 译 注 6。 如 果 你 不 想 购 买 EPD 订 阅 且 愿意 自己 动手 一 步 步 安 装 ， 可 以 试 试 由 加 州 大 学 
欧文 分 校 的 Christoph Gohlke 提 供 的 非 官方 安装 包 
(http://www.lfd.uci.edu/~gohlke/pythonlibs/) ， 它 既 有 32 位 版 也 有 64 位 版 ， 且 包含 本 书 所 需 
的 所 有 库 。 


荣 果 OS X 


在 OS X 上 ， 首 先 需 要 安装 Xcode， 它 含有 芋 果 的 软件 开发 工具 套件 。 我 们 所 需 的 部 分 是 gcc C 
和 C++ 编译 器 。Xcode 安 装 包 可 以 在 随 计算 机 发 布 的 OS X 安 装 光 盘 中 找到 ， 也 可 以 直接 从 葵 
果 公 司 的 网 站 上 下 载 。 


装 好 Xcode 之 后 ， 到 "Applications 一 Utilities" 去 启动 终端 (Terminal.app) 。 输 入 gcc 并 按 回 车 
键 。 你 将 会 看 到 如 下 信息 : 


$ gcci686-apple-darwin10-gcc-4.2.1: no input files 


现在 就 该 安装 EPDFree 了 。 下 载 一 个 名 为 epd free-7.3-1-macosx-i386.dmg 的 磁盘 镜像 文件 。 
双击 该 .dmg 文 件 以 将 其 挂 载 到 系统 ， 然 后 双击 其 中 的 .mpkg 文 件 来 运行 安装 程序 。 


安装 文件 息 动 之 后 ， 会 自动 将 EPDFree 可 执行 文件 的 路 径 添 加 到 你 的 .bash_profile 文 件 中。 该 
文件 位 于 /Users/your_uname/.bash_profile : 


Setting PATH for EPD _ free-7.3- 
1PATH="/Library/Frameworks/Python.fram 
ework/Versions/Current/bin:${PATH}"expor 
t PATH 


如 果 在 后 续 步 又 中 遇 到 任何 问题 ， 首 先 应 该 检查 一 下 你 的 .bash_profile， 看 看 是 否 需要 将 上 面 
那个 目录 添加 进去 。 


现在 就 该 安装 pandas 了 。 在 终端 中 执行 下 面 这 条 命令 : 


$ sudo easy_install pandasSearching for pandasReading 
http://pypi.python.org/simple/pandas/Reading http://pandas.pydata.orgReading 
http://pandas.sourceforge.netBest match: pandas 0.9.0Downloading 
http://pypi.python.org/packages/source/p/pandas/pandas-0.9.0.zipProcessing pandas- 
0.9.0.zipWriting /tmp/easy_install-HS5mIX6/pandas-0.9.0/setup.cfgRunning pandas- 
0.9.0/setup.py -q bdist egg --dist-dir /tmp/easy_install-H5mIX6/pandas-0.9.0/egg-dist-tmp- 
RhLGOzAdding pandas 0.9.0 to easy-install.pth fllelnstalled 
/Library/Frameworks/Python.framework/Versions/7.3/lib/python2.7/site-packages/pandas- 
0.9.0-py2.7-macosx-10.5-i386.eggProcessing dependencies for pandasFinished processing 
dependencies for pandas 


为 了 验证 是 否 一 切 正常 ， 我 们 以 Pylab 模 式 启 动 IPython， 然 后 尝试 加 载 pandas 并 绘制 一 张 图 
片 : 


$ ipython --pylab22:29 ~/VirtualBox VMs/WindowsXP $ ipythonPython 2.7.3 |EPD_ free 7.3-1 
(32-bit)| (default, Apr 12 2012, 11:28:34)Type "copyright", "credits" or "license" for more 
information.IPython 0.12.1 -- An enhanced Interactive Python.? -> Introduction and overview 
of IPython's features.%quickref -> Quick reference.help -> Python's own help system.object? 
-> Details about 'object, use 'object??' for extra details.Welcome to pylab, a matplotlib- 
based Python environment [backend: WXAgg].For more information, type 'help(pylab)'.In [1]: 
import pandasln [2]: plot(arange(10)) 


如 果 成 功 ， 将 会 弹出 一 个 绘图 窗口 ， 其 中 男 的 是 一 条 直线 。 
GNU/Linux 


注意 : 有 些 (但 不 是 全 部 ) Linux 产 品 自 带 的 Python 包 版 本 较 新 ， 且 可 以 通过 内 置 的 包 管理 工 
具 (如 apt) 进行 安装 。 我 将 详细 讲解 EPDFree 的 安装 步骤 ， 因 为 它 在 不 同 的 Linux 发 行 版 之 间 
是 差不多 的 。 


对 于 不 同 的 Linux 产 品 ， 具 体 的 安装 过 程 会 有 一 些 不 同 ， 我 这 里 将 以 基于 Debian 的 GNU/Linux 
系统 (如 Ubuntu 和 Mint) 为 例 来 进行 讲解 。 除 EPDFree 之 外 ， 其 他 的 安装 过 程 跟 OS X 差 不 
多 。 其 安装 包 是 一 个 只 能 在 终端 中 执行 的 shell 脚 本 。 根 据 系统 是 32 位 还 是 64 位 ， 需 要 相应 地 
安装 x86 版 (32 位 ) 或 x86_64 版 (64 位 ) 。 然 后 你 将 会 得 到 一 个 名 为 epd_free-7.3-1-rh5- 
x86_64.sh 的 文件 。 通 过 bash 执 行 该 脚本 即 可 开始 安装 : 


$ bash epd_free-7.3-1-rh5-x86_64.sh 


在 接受 了 许可 协议 之 后 ， 你 需要 选择 EPDFree 文 件 的 存放 位 置 。 我 建议 将 这 些 文件 安装 在 你 
的 home 目 录 中 ， 上 比如 /home/wesm/epd (将 wesm 蔡 换 为 你 的 用 户 名 即 可 ) 。 


安装 完毕 之 后 ， 你 需要 将 EPDFree 的 bin 目 录 添 加 到 $PATH 变 量 中 去 。 如 果 你 用 的 是 bash 
shell (比如 Ubuntu 默认 用 的 就 是 这 个 ) ， 则 在 你 的 .bashrc 中 加 上 下 面 这 名 路 径 添加 指令 : 


export PATH=/home/wesm/epd/bin:$PATH 


很 明显 ， 需 要 将 /home/wesm/epd/ 蔡 换 为 你 所 使 用 的 安装 目录 。 做 完 这 些 事情 之 后 ， 你 可 以 启 
动 一 个 新 的 终端 进程 ， 也 可 以 通过 source ~/.bashrc 重 馈 你 的 .bashrc。 


接 下 来 还 需要 用 到 一 个 C 编 译 器 (比如 gcc) 。 许 多 Linux 产 品 都 含有 gcc， 但 有 些 则 没有 。 在 
Debian 系 统 中 ， 可 以 执行 下 面 这 条 指令 来 安装 gcc : 


sudo apt-get install gcc 

如 果 在 命令 行 中 输入 gcc， 就 可 以 看 到 : 
$ gccgcc: no input files 

现在 可 以 安装 pandas 了 : 


$ easy_install pandas 


如 果 你 是 以 root 权 限 来 安装 EPDFree 的 ， 就 需要 在 命令 中 加 上 sudo 并 输入 sudo 或 root 密 码 。 使 
用 跟 OS X 相 同 的 检测 方式 即 可 验证 是 否 一 切 正常 。 


Python 2 和 Python 3 


Python 社区 正在 慢 慢 地 从 Python 2 系列 解释 器 过 渡 到 Python 3 系列 。 在 Python 3.0 问 世 以 前 ， 
所 有 的 Python 代码 都 是 向 后 兼容 的 。 为 了 让 Python 语言 更 加 先进 ，Python 社 区 认为 作出 一 些 
向 后 不 兼容 的 修改 是 必要 的 。 


本 书 是 基于 Python 2.7 编 写 的 ， 这 是 因为 大 部 分 Python 科学 计算 社区 还 没有 转向 Python 3。 好 
消息 是 ， 如 果 你 碰巧 正在 使 用 Python 3.2， 在 学 习 本 书 的 过 程 中 一 般 也 不 会 遇 到 什么 麻烦 。 


集成 开发 环境 (IDE) 


当 有 人 问 我 “你 的 标准 开发 环境 是 怎样 的 "时 ， 我 几乎 总 是 回答 “IPython 外 加 一 个 文本 编辑 器 ”。 
我 通常 都 在 IPython 中 编写 和 调试 程序 ， 而 且 它 可 以 交互 式 地 处 理 数 据 ， 并 通过 可 视 化 的 方式 
验证 某 个 数据 操作 的 结果 是 否 正 确 。 诸 如 pandas 和 NumPy 这 样 的 库 也 可 以 轻松 便捷 地 在 这 个 
shell 中 使 用 。 


但 是 相对 于 文本 编辑 器 ， 总 有 人 会 更 喜欢 IDE。 因 为 它们 提供 了 许多 不 错 的 "代码 智能 化 " 功 
能 ， 上 比如 自动 完成 以 及 快速 获取 男 数 和 类 的 文档 等 。 你 可 以 试 试 下 面 这 些 : 


Eclipse +PyDev 插 件 

:Python Tools for Visual Studio (针对 Windows 用 户 ) 

:PyCharm 

‘Spyder 

‘Komodo IDE 

译注 1 

: 已 经 更 名 为 Enthought Canopy。EPDFree 对 应 的 是 Enthought Canopy Express。 相 比 来 说 
EPDFree 自 然 更 好 用 ， 不 过 为 了 保证 阅读 本 书 时 不 遇 到 麻烦 ， 建 议 按照 本 书 介绍 法 操作 。 


(其 实 就 算 按 照 书 上 的 说 明 操 作 ， 一 样 会 遇 到 不 少 麻 烦 ， 我 会 尽量 给 出 说 明 。) 
译注 2 


: 虽然 安装 过 程 不 大 轻松 ， 但 还 是 建议 后 面 装 一 下 ， 因 为 它 可 以 使 你 在 安装 那些 库 的 时 候 更 
轻松 愉快 。 


译注 3 


: 由 于 软件 版 本 更 新 较 快 ， 所 以 建议 到 网 上 找 一 个 一 模 一 样 的 安装 包 ， 不 然 有 些 例子 的 结果 
可 能 会 跟 书 上 介绍 的 不 一 样 。 


译注 4 


: 如 果 只 用 过 Windows， 要 注意 前 面 的 "$"， 这 是 Linux 或 UNIX 或 Mac 的 默认 命令 提示 符 。 本 
书 应 该 就 是 用 Mac 测 试 代码 的 ， 所 以 这 样 的 提示 符 不 少 ， 后 面 代 码 中 还 有 很 多 ， 请 读者 注意 


译注 5 

: 为 什么 ? 难道 作者 以 为 全 世界 人 民 都 还 在 用 IE6 不 成 ? 译 者 使 用 IE9/IE10 均 无 压力 完成 。 
译注 6 

: 还 是 建议 使 用 32 位 版 本 的 ， 最 主要 的 原因 仍然 是 “ 跟 原 书 一 致 ， 以 免 抓 狂 ”。 
社区 和 研讨 会 


除 搜索 引擎 之 外 ，Python 科 学 计算 邮件 列表 也 是 很 不 错 的 资源 ， 其 上 的 问题 几乎 都 会 有 人 回 
答 。 可 以 看 看 下 面 这 些 : 


:pydata : 这 是 一 个 Google Group 邮件 列表 ， 其 中 的 问题 都 是 Python 数据 分 析 和 pandas 方 面 
的 。 


:pystatsmodels : 针对 与 statsmodels 和 pandas 相 关 的 问题 。 

:numpy-discussion : 针对 与 NumPy 相 关 的 问题 。 

'Scipy-user : 针对 与 SciPy 和 Python 科学 计算 相关 的 问题 。 

我 没有 给 出 具体 的 URL， 因 为 它们 经 常 在 变 。 通 过 搜索 引擎 即 可 轻松 地 找到 它们 。 


全 世界 每 年 都 会 召开 许多 针对 Python 程序 员 的 研讨 会 。PyCon 和 EuroPython 分 别 是 美国 和 欧 
洲 最 主要 的 Python 研讨 会 。 在 阅读 本 书 之 后 ， 如 果 你 越 来 越 深 入 地 用 Python 进行 数据 分 析 ， 
就 可 以 在 SciPy 和 EuroSciPy 这 两 个 面向 科学 计算 的 Python 研讨 会 上 找到 许多 “ 臭 味 相投 的 同道 
中 人 ”。 


使 用 本 书 


如 果 之 前 从 未 使 用 过 Python， 那 你 可 能 需要 先 看 看 本 书 最 后 的 附录 部 分 ， 那 是 一 个 讲解 
Python 的 语法 、 语 言 特性 以 及 内 置 数据 结构 (如 元 组 、 列 表 和 字典 等 ) 的 简单 教程 。 这 部 分 
内 容 可 以 看 做 本 书 其 他 内 容 的 预备 知识 。 


本 书 首先 讲解 的 是 IPython 环 境 ， 然 后 简单 地 介绍 了 NumPy 的 关键 特性 ，NumPy 其 他 的 高 级 
功能 则 在 本 书 最 后 一 章 讲 解 。 然 后 我 介绍 了 pandas。 本 书 其 余部 分 则 介绍 了 综合 运用 
pandas、NumPy 和 matplotlib (用 于 可 视 化 ) 进行 数据 分 析 的 相关 知识 。 我 尽量 以 增 量 的 形式 
组 织 各 种 材料 ， 但 偶尔 还 是 会 出 现 一 些 跨 章 节 的 知识 点 。 

各 章 的 数据 文件 及 相关 材料 存放 在 GitHub 上 译注 7 : 

http://github.com/pydata/pydata-book 


我 强烈 建议 你 下 载 这 些 数 据 ， 然 后 用 各 章 所 介绍 的 工具 重 写 示 例 代码 。 我 非常 欢迎 大 家 为 本 
书 的 git 库 提供 文稿 、 脚 本 、IPython 笔 记 本 以 及 其 他 各 种 有 用 的 资源 。 


代码 示例 


本 书 大 部 分 代码 示例 的 输入 形式 和 输出 结果 都 会 按照 其 在 IPython shell 中 执行 时 的 祥子 进行 排 
版 。 


In [5]: codeOut[5]: output 


有 时 ， 为 了 简洁 明了 ， 多 个 代码 示例 将 会 并 排 显示 。 这 些 代 码 示例 应 该 从 左 到 右 进 行 阅读 ， 
且 应 该 分 别 执行 。 


In [5]: code In [6]: code2Out[S]: output Out[6]: output2 
示例 数据 


各 章 的 示例 数据 都 存放 在 GitHub 上 : http://github.com/pydata/pydata-book。 下 载 这 些 数据 的 
方法 有 二 : 使 用 git 版 本 控制 命令 行程 序 ; 直接 从 网 站 上 下 载 该 GitHub 库 的 zip 文 件 。 


为 了 让 所 有 示例 都 能 重 现 ， 我 尽量 使 其 包含 所 有 必需 的 未 西 ， 但 仍然 可 能 会 有 一 些 错误 或 遗 
漏 。 如 果 出 现 这 种 情况 的 话 ， 请 给 我 发 邮件 : wesmckinn@gmail.com。 


引入 惯例 
Python 社区 已 经 广泛 接受 了 一 些 常用 模块 的 命名 惯例 : 
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt 


也 就 是 说 ， 当 你 看 到 np.arange 时 ， 就 点 该 想到 它 引用 的 是 NumPy 中 的 arange 画 数 。 这 样 做 的 
原因 是 : 在 Python 软件 开发 过 程 中 ， 不 建议 直接 引入 类 似 NumPy 这 种 大 型 库 的 全 部 内 容 
(from numpy import *) 。 


行 话 
由 于 你 可 能 不 太 熟 悉 书 中 使 用 的 一 些 有 关 编 程 和 数据 科学 方面 的 常用 术语 ， 所 以 我 在 这 里 先 
给 出 其 简单 定义 : 


数据 规整 (Munge/Munging/Wrangling) 译注 8 


指 的 是 将 非 结构 化 和 或 ) 散乱 数据 处 理 为 结构 化 或 整洁 形式 的 整个 过 程 。 这 几 个 词 已 经 愉 
愉 成 为 当今 数据 黑客 们 的 行 话 了 。Munge 这 个 词 跟 Lunge 押 韵 。 


伪 码 (Pseudocode) 

算法 或 过 程 的 “代码 式 " 描 述 ， 而 这 些 代码 本 身 并 不 是 实际 有 效 的 源 代码 。 
语法 糖 (Syntactic sugar) 

这 是 一 种 编程 语法 ， 它 并 不 会 带 来 新 的 特性 ， 但 却 能 使 代码 更 易 读 、 更 易 写 。 


译注 7 


: 拿 到 书 就 马上 去 下 载 ， 一 来 是 防止 链接 不 可 用 ， 二 来 是 数据 有 点 大 ， 宽 带 较 小 的 话 .……… 
译注 8 


: 本 来 想 不 翻 译 的 ， 但 是 原文 中 这 几 个 到 你 混用 ， 搞 得 我 强迫 症 爆 发 ， 直 接 全 翻译 成 “数据 规 
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本 书 将 要 向 你 介绍 的 是 用 于 高 效 处 理 数据 的 Python 工 具 。 虽 然 读 者 各 自 工作 的 最 终 目的 千 差 
万 别 ， 但 基本 都 需要 完成 以 下 几 个 大 类 的 任务 : 

与 外 界 进行 交互 

读 写 各 种 各 样 的 文件 格式 和 数据 库 。 

准备 

对 数据 进行 清理 、 修 整 、 整 合 、 规 范 化 、 重 塑 、 切 片 切 块 、 变 形 等 处 理 以 便 进 行 分 析 。 
转换 

对 数据 集 做 一 些 数学 和 统计 运算 以 产生 新 的 数据 集 。 上 比如 说 ， 根 据 分 组 变量 对 一 个 大 表 进 行 
聚合 。 

建 模 和 计算 

将 数据 跟 统计 模型 、 机 器 学 习 算 法 或 其 他 计算 工具 联系 起 来 。 

展示 

创建 交互 式 的 或 静态 的 图 片 或 文字 摘要 。 

我 避 在 本 章 中 给 出 一 些 范例 数据 集 ， 并 讲解 我 们 能 对 其 做 些 什么 。 这 些 例子 仅仅 是 为 了 提起 
你 的 兴趣 ， 因 此 只 会 在 一 个 比较 高 的 层次 进行 讲解 。 即 使 你 从 来 没 用 过 这 些 东 西 也 没关系 ， 


本 书后 续 的 章节 将 会 对 此 进行 非常 详细 的 讲解 。 在 这 些 代码 示例 中 ， 你 可 以 看 到 诸如 In [15]: 
之 类 的 输入 输出 提示 符 ， 它 们 来 自 IPython shell。 


来 自 bit.ly 的 1.usa.gov 数 据 


2011 年 ，URL 缩 短 服 务 bit.ly 跟 美国 政府 网 站 usa.gov 合 作 ， 提 供 了 一 份 从 生成 .gov 或 .mil 短 链 
接 的 用 户 那 里 收集 来 的 匿名 数据 译注 1。 直 到 编写 本 书 时 为 止 ， 除 实时 数据 译注 2 之 外 ， 还 可 
以 下 载 文本 文件 形式 的 每 小 时 快照 注 1。 


以 每 小 时 快照 为 例 ， 文 件 中 各 行 的 格式 为 JSON ( 即 JavaScript Object Notation， 这 是 一 种 常 
用 的 Web 数 据 格式 ) 。 例 如 ， 如 果 我 们 只 读 取 某 个 文件 中 的 第 一 行 ， 那 么 你 所 看 到 的 结果 应 
该 是 下 面 这 样 : 


In [15]: path = "ch02/usagov_bitly_data2012-03-16-1331923249.txtln [16]: 
open(path).readline()Out[16]: { "a": "MozillaV5.0 (Windows NT 6.1; WOW64) 
AppleWebKitV535.11 (KHTML, like Gecko) ChromeV17.0.963.78 SafariV535.11", "ce": "US", 
"nk": 1, "tz": "AmericaVNew_York", "gr": "MA", "g": "A6qgOVH", "h": "wfLQtf", "|": "orofrog", 
"al": "en-US,en;q=0.8", "hh": "1.usa.gov", "r": 
"http:VVwww.facebook.comVIV7AQEFzjSiV1.usa.govVwfLQtf"，"U”: 

"http:V Vwww.ncbi.nIm.nih.gov VpubmedV22415991", "t": 1331923247, "hc":1331822918, "cy": 
"Danvers", "| 上: [ 42.576698, -70.954903 ] Mn' 


Python 有 许多 内 置 或 第 三 方 模块 可 以 将 JSON 字 符 串 转换 成 Python 字典 对 象 。 这 里 ， 我 将 使 用 
json 模 块 及 其 loads 画 数 逐 行 加 载 已 经 下 载 好 的 数据 文件 : 


import jsonpath = 'chO2/usagov_bitly_data2012-03-16-1331923249 .txt'records = 
Dson.loads(line) for line in open(path)] 


你 可 能 之 前 没 用 过 Python， 解 释 一 下 上 面 最 后 那 行 表达 式 ， 它 叫做 列表 推导 式 (list 
comprehension) ， 这 是 一 种 在 一 组 字符 串 〈 或 一 组 别 的 对 象 ) 上 执行 一 条 相同 操作 (如 
json.loads) 的 简洁 方式 。 在 一 个 打开 的 文件 句柄 上 进行 迭代 即 可 获得 一 个 由 行 组 成 的 序列 。 
现在 ，records 对 象 就 成 为 一 组 Python 字典 了 : 


In [18]: records[O0]Out[18]:{u'a': u'Mozilla/5.0 (Windows NT 6.1; WOW64) 
AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.78 Safari/535.11", u'al': u'en- 
US,en;q=0.8',u'c': u'US',u'cy': u'Danvers',u'g': u'A6qOVH'",u'gr: u'MA',u'h': u'wfLQtf',u'he': 
1331822918,u'hh': u'1.usa.gov',u'l': u'orofrog',u'll': [42.576698, -70.954903],u'nk': 1,u'™r': 
u'http://www.facebook.com/l/7AQEFzjSi/1.usa.gov/wfLQtf,u't': 1331923247,u'tz": 
u'America/New_York',u'u"': u'http://www.ncbi.nIm.nih.gov/pubmed/22415991'} 


注意 ，Python 的 索引 是 从 0 开始 的 ， 不 像 其 他 某 些 语 言 是 从 1 开始 的 (如 R) 。 现 在 ， 只 要 以 
字符 串 的 形式 给 出 想 要 访问 的 键 就 可 以 得 到 当前 记录 中 相应 的 值 了 : 


In [19]: records[O]['tz']Out[19]: UAmerica/New_ York' 


单 引 号 前 面 的 u 表 示 unicode (一 种 标准 的 字符 串 编码 格式 ) 。 注 意 ，IPython 在 这 里 给 出 的 是 
时 区 的 字符 串 对 象形 式 ， 而 不 是 其 打印 形式 : 


In [20]: print records[O][tz]America/New_York 


用 纯 Python 代 码 对 时 区 进行 计数 


假设 我 们 想 要 知道 该 数据 集中 最 常 出 现 的 是 哪个 时 区 〈 即 tz 字 段 ) ， 得 至 
首先 ， 我 们 用 列表 推导 式 取 出 一 组 时 区 : 


I 答案 的 办 法 有 很 多 。 


In [25]: time_zones = [rec['tz'] for rec in records]----------------------------------------------------------- 
---------------- KeyError Traceback (most recent call 
last)/home/wesm/book_scripts/whetting/<ipython> in <module>()----> 1 time_zones = 
[rec['tz'] for rec in records]lKeyError: ‘tz' 


晕 ! 原来 并 不 是 所 有 记录 都 有 时 区 字段 。 这 个 好 办 ， 只 需 在 列表 推导 式 末 尾 加 上 一 个 if 'tz'in 
rec 判 断 即 可 : 


In [26]: time_zones = [rec['tz'] for rec in records if 'tz' in recjln [27]: time_zones[:10]Out[27]: 
[u'America/New_York',u'America/Denver',u'America/New_York',u'America/Sao_Paulo',u'Ame 
rica/New_York',uAmerica/New_York',u'Europe/Warsaw',yu",u",u"] 


只 看 前 10 个 时 区 ， 我 们 发 现 有 些 是 未 知 的 〈 即 空 的) 。 虽然 可 以 将 它们 过 滤 掉 ， 但 现在 暂时 
先 留 着 。 接 下 来 ， 为 了 对 时 区 进行 计数 ， 这 里 介绍 两 个 办 法 : 一 个 较 难 〈 只 使 用 标准 Python 
库 ) ， 另 一 个 较 简 单 ( 使 用 pandas) 。 计 数 的 办 法 之 一 是 在 通 历 时 区 的 过 程 中 将 计数 值 保存 
在 字典 中 : 


def get_ counts(sequence): counts = {} for x in sequence: if x in counts: counts[x] += 1 else: 
counts[x] = 1 return counts 


如 果 非 常 了 解 Python 标 准 库 ， 那 么 你 可 能 会 将 代码 写 得 更 简洁 一 些 : 


from collections import defaultdictdef get_counts2(sequence): counts = defaultdict(int) # 所 
有 的 值 均 会 被 初始 化 为 0 for x in sequence: counts[x] += 1 return counts 


我 将 代码 写 到 函数 中 是 为 了 获得 更 高 的 可 重用 性 。 要 用 它 对 时 区 进行 处 理 ， 只 需 将 
time_zones 传 人 即 可 : 


In [31]: counts = get_counts(time_zones)In [32]: counts[America/New_York']oOut[32]: 1251In 
[33]: len(time_zones)Out[33]: 3440 


如 果 想 要 得 到 前 10 位 的 时 区 及 其 计数 值 ， 我 们 需要 用 到 一 些 有 关 字 上 典 的 处 理 技巧 : 


def top_counts(count dict, n=10): value_key_pairs = [(count, tz) for tz, count in 
count dict.items()] value_key_pairs.sort() return value_ key_pairs[-n:] 


现在 我 们 就 可 以 : 


In [35]: top_counts(counts)Out[35]:[(33, u'America/Sao_Paulo'), (35, u'Europe/Madrid'), (36, 
u'Pacific/Honolulu'), (37, u'Asia/Tokyo'), (74, u'Europe/London'), (191, UAmerica/Denver )， 
(382, u'America/Los_ Angeles'), (400, u'America/Chicago'), (521, u"), (1251, 
u'America/New_York')] 


你 可 以 在 Python 标 准 库 中 找到 collections.Counter 类 ， 它 能 使 这 个 任务 变 得 更 简单 : 


In [49]: from collections import Counterln [50]: counts = Counter(time_zones)In [51]: 
counts.most common(10)Out[S51]:[(u'America/New_York', 1251), (u", 521), 
(u'America/Chicago'", 400), (u'America/Los_ Angeles, 382), (u'America/Denver', 191), 
(uy'Europe/London', 74), (vu'Asia/Tokyo'", 37), (yu'Pacific/Honolulu', 36), (yu'Europe/Madrid', 35), 
(u'America/Sao Paulo', 33)] 


用 pandas 对 时 区 进行 计数 


DataFrame 是 pandas 中 最 重要 的 数据 结构 ， 它 用 于 将 数据 表示 为 一 个 表格 。 从 一 组 原始 记录 
中 创建 DataFrame 是 很 简单 的 : 


In [289]: from pandas import DataFrame, Seriesln [290]: import pandas as pd; import numpy 
as npln [291]: frame = DataFrame(records)ln [292]: frameOut[292]:Int64Index: 3560 entries, 
0 to 3559Data columns:heartbeat 120 non-null valuesa 3440 non-null valuesal 3094 non-null 


valuesc 2919 non-null valuescy 2919 non-null valuesg 3440 non-null valuesgr 2919 non-null 
valuesh 3440 non-null valueshc 3440 non-null valueshh 3440 non-null valueskw 93 non-null 
values| 3440 non-null valuesll 2919 non-null valuesnk 3440 non-null valuesr 3440 non-null 
valuest 3440 non-null valuestz 3440 non-null valuesu 3440 non-null valuesdtypes: 
float64(4), object(14)In [293]: frame['tz"][:10]Out[293]:0 America/New_York1 
America/Denver2 America/New_York3 America/Sao_ Paulo4 America/New_York5 
America/New_York6 Europe/Warsaw789Name: tz 


这 里 frame 的 输出 形式 是 摘要 视图 (summary view) ， 主 要 用 于 较 大 的 DataFrame 对 象 。 
frame['tz'] 所 返回 的 Series 对 象 有 一 个 value_counts 方 法 ， 该 方法 可 以 让 我 们 得 到 所 需 的 信 
息 : 


In [294]: tz_counts = frame['tz'].value_counts()In [295]: 
tz_counts[:10]Out[295]:America/New_York 1251 521America/Chicago 
400America/Los_Angeles 382America/Denver 191Europe/London 74Asia/Tokyo 
37Pacific/Honolulu 36Europe/Madrid 35America/Sao_Paulo 33 


然后 ， 我 们 想 利用 绘图 库 ( 即 matplotlib) 为 这 段 数 据 生成 一 张 图 片 。 为 此 ， 我 们 先 给 记录 中 
未 知 或 缺失 的 时 区 填 上 一 个 替代 值 。fillna 本 数 可 以 替换 缺失 值 (NA) ， 而 未 知 值 ( 空 字符 
串 ) 则 可 以 通过 布尔 型 数组 索引 加 以 替换 : 


In [296]: clean tz = framefrtz].fllna(Missing')In [297]: clean_tz[clean tz == "] = 'Unknown'In 
[298]: tz_counts = clean_tz.value_counts()In [299]: 
tz_counts[:10]Out[299]:America/New_York 1251Unknown 521America/Chicago 
400America/Los_Angeles 382America/Denver 191Missing 120Europe/London 74Asia/Tokyo 
37Pacific/Honolulu 36Europe/Madrid 35 


利用 counts 译 注 3 对 象 的 plot 方 法 即 可 得 到 一 张 水 平 条 形 图 译注 4 : 
In [301]: tz_counts[:10].plot(kind="barh', rot=0) 


最 终结 果 如 图 2-1 所 示 。 我 们 还 可 以 对 这 种 数据 进行 很 多 处 理 。 上 比如 说 ，a 字 段 含有 执行 URL 
短 缩 操 作 的 浏 览 器 、 设备 、 应 用 程序 的 相关 信息 : 


In [302]: frame[a'][1]Out[302]: u'GoogleMaps/RochesterNY'In [303]: frame['a'][50]Out[303]: 
UMozilla/5.0 (Windows NT 5.1; rv:10.0.2) Gecko/20100101 Firefox/10.0.2'In [304]: frame['a!] 
[51]Out[304]: UMozila/5.0 (Linux; U; Android 2.2.2; en-us; LG-P925/V10e Build/FRG83G) 
AppleWebKit/533.1 (KHTML., like Gecko) Version/4.0 Mobile Safari/533.71" 
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图 2-1 : 1.usa.gov 示 例 数据 中 最 常 出 现 的 时 区 


将 这 些 "agent" 字 符 串 译 注 5 中 的 所 有 信息 都 解析 出 来 是 一 件 挺 郁闷 的 工作 。 不 过 只 要 你 掌握 了 
Python 内 置 的 字符 串 画 数 和 正则 表达 式 ， 事 情 就 好 办 了 。 上 比如 说 ， 我 们 可 以 将 这 种 字符 串 的 
第 一 节 (与 浏览 器 大 致 对 上 应) 分 离 出 来 并 得 到 另外 一 份 用 户 行为 摘要 : 


In [305]: results = Series([x.split()[0] for x in frame.a.dropna()])In [306]: results[:5]Out[306]:0 
Mozilla/5.01 GoogleMaps/RochesterNY2 Mozilla/4.03 Mozilla/5.04 Mozilla/5.0In [307]: 
results.value_counts()[:8]JOut[307]:Mozilla/5.0 2594Mozilla/4.0 
601GoogleMaps/RochesterNY 121Opera/9.80 34TEST _INTERNET _ AGENT 
24GoogleProducer 21Mozilla/6.0 5BlackBerry8520/5.0.0.681 4 


现在 ， 假 设 你 想 按 Windows 和 非 Windows 用 户 对 时 区 统计 信息 进行 分 解 。 为 了 简单 起 见 ， 我 
们 假定 只 要 agent 字 符 串 中 含有 "Windows" 就 认为 该 用 户 为 Windows 用 户 。 由 于 有 的 agent 缺 
失 ， 所 以 首先 将 它们 从 数据 中 移 除 : 


In [308]: cframe = framel[frame.a.notnull()] 
其 次 根据 a 值 计算 出 各 行 是 否 是 Windows : 


In [309]: operating_ system = np.where(cframe['a'].str.contains("Windows'), ...: "Windows,, 
'Not Windows')In [310]: operating_system[:5]Out[310]:0 Windows1 Not Windows2 Windows3 
Not Windows4 WindowsName: a 


接 下 来 就 可 以 根据 时 区 和 新 得 到 的 操作 系统 列表 对 数据 进行 分 组 了 : 
In [311]: by_tz_ os = cframe.groupby([tz', operating_system]) 


然后 通过 size 对 分 组 结果 进行 计数 〈 类 似 于 上 面 的 value_counts 画 数 ) ， 并 利用 unstack 对 计 
数 结果 进行 重 塑 : 


In [312]: agg_counts = by_tz_os.size().unstack().fillna(0)In [313]: agg_counts[:10]Out[313]:a 
Not Windows Windowstz 245 276Africa/Cairo 0 3Africa/Casablanca 0 1Africa/Ceuta 0 
2Africa/Johannesburg 0 1Africa/Lusaka 0 1America/Anchorage 4 
1America/Argentina/Buenos_Aires 1 0America/Argentina/Cordoba 0 
1America/Argentina/Mendoza 0 1 


最 后 ， 我 们 来 选取 最 常 出 现 的 时 区 。 为 了 达到 这 个 目的 ， 我 根据 agg_counts 中 的 行 数 构 造 了 
一 个 间接 索引 数组 : 


用 于 按 升序 排列 In [314]: indexer = 
agg_counts.sum(1).argsort()In [315]: 
indexer[:10]Out[315]:tz 24Africa/Cairo 
20Africa/Casablanca 21Africa/Ceuta 
92Africa/Johannesburg 87Africa/Lusaka 
53America/Anchorage 
54America/Argentina/Buenos Aires 
57America/Argentina/Cordoba 
26America/Argentina/Mendoza 55 


然后 我 通过 take 按 照 这 个 顺序 截取 了 最 后 10 行 : 


In [316]: count_ subset = agg_counts.take(indexer)[-10:]In [317]: count_subsetOut[317]:a Not 
Windows WindowstzAmerica/Sao_Paulo 13 20Europe/Madrid 16 19Pacific/Honolulu 0 
36Asia/Tokyo 2 35Europe/London 43 31America/Denver 132 59America/Los_Angeles 130 
252America/Chicago 115 285 245 276America/New_York 339 912 


这 里 也 可 以 生成 一 张 条 形 图 。 我 将 使 用 stacked=True 来 生成 一 张 堆积 条 形 图 (如 图 2-2 所 
示 ) : 


In [319]: count_subset.plot(kind='barh', stacked=True) 


由 于 在 这 张 图 中 不 太 容 易 看 清楚 较 小 分 组 中 Windows 用 户 的 相对 上 比例， 因此 我 们 可 以 将 各 行 
规范 化 为 “总计 为 个 并 重新 绘图 〈 如 图 2-3 所 示 ) : 


In [321]: normed_ subset = count_ subset.div(count_ subset.sum(1), axis=0)In [322]: 
normed subset.plot(kind="barh', stacked=True) 


这 里 所 用 到 的 所 有 方法 都 会 在 本 书后 续 的 章节 中 详细 讲解 。 
译注 1 


: 由 于 可 以 通过 短 链接 伪造 .gov 后 缀 的 URL， 导 致 用 户 访问 恶意 域名 ， 所 以 美国 政府 开始 着 手 
处 理 这 种 事情 了 。 


译注 2 


: 以 Feed 形 式 提供 。 
注 1 
: 网 址 : http://www.usa.gov/About/developer-resources/1usagov.shtml。 
译注 3 
: 应 该 是 t 志 _counts 。 
译注 4 
: 注意 ， 一 定 要 以 pylab 模 式 打开 ， 否 则 这 条 代码 没 效 果 。 包 括 很 多 缩写 ，pylab 都 直接 弄 好 


了 ， 如 果 不 是 用 这 种 模式 打开 ， 后 面 很 多 代码 一 样 会 遇 到 问题 ， 虽 然 不 是 什么 大 毛病 ， 但 毕 
竟 麻 烦 。 后 面 如 果 遇 到 这 没 定义 那 找 不 到 的 情况 ， 就 请 注意 是 不 是 因为 这 个 


译注 5 
。 即 浏览 览 器 的 USER . AGENT 信 息 。 
MovieLens 1M 数 据 集 


GroupLens Research (http://www.grouplens.org/node/73) 采集 了 一 组 从 20 世 纪 90 年 末 到 21 
世纪 初 由 MovieLens 用 户 提 供 的 电影 评分 数据 。 这 些 数据 中 包括 电影 评分 、 电 影 元 数据 (风格 
类 型 和 年 代 ) 以 及 关于 用 户 的 人 口 统计 学 数据 年龄、 邮编 、 性 别 和 职业 等 ) 。 基 于 机 器 学 

习 算 法 的 推荐 系统 一 般 都 会 ns 兴趣 。 虽 然 我 不 会 在 本 书 中 详细 介绍 机 器 学 习 技 

术 ， 但 我 会 告诉 你 如 何 对 这 种 数据 进行 切片 切 块 以 满足 实际 需求 。 
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图 2-2 : 按 Windows 和 非 Windows 用 户 统计 的 最 常 出 现 的 时 区 
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图 2-3 : 按 Windows 和 非 Windows 用 户 比例 统计 的 最 常 出 现 的 时 区 


MovieLens 1M 数 据 集 含有 来 自 6000 名 用 户 对 4000 部 电影 的 100 万 条 评分 数据 。 它 分 为 三 个 
表 : 评分 、 用 户 信息 和 电影 信息 。 将 该 数据 从 zip 文 件 中 解压 出 来 之 后 ， 可 以 通过 
pandas.read_table 将 各 个 表 分 别 读 到 一 个 pandas DataFrame 对 象 中 : 


import pandas as pdunames = ['user_id', 'gender", 'age', 'occupation', 'zip']users = 

pd.read table(ml-1m/users.dat, sep="::", header=None, names=unames)rnames = 
['user_id', 'movie id, 'rating', timestamp']ratings = pd.read_table('ml-1m/ratings.dat', sep="::,, 
header=None, names=rnames)mnames = ['movie_id', ‘title', 'genres'Jmovies = 

pd.read table(ml-1m/movies.dat', sep="::", header=None, names=mnames) 


利用 Python 的 切片 语法 ， 通 过 查看 每 个 DataFrame 的 前 几 行 即 可 验证 数据 加 载 工作 是 否 一 切 
顺利 : 


In [334]: users[:5]Out[334]: user_ id gender age occupation zip0 1 F 1 10 480671 2 M 56 16 
700722 3 M 25 15 551173 4 M 45 7 024604 5 M 25 20 55455lIn [335]: ratings[:5]Out[335]: 
User_id movie_id rating timestamp0 1 1193 5 9783007601 1 661 3 9783021092 1914 3 
9783019683 1 3408 4 9783002754 1 2355 5 978824291In [336]: movies[:5]Out[336]: 
movie_id title genres0 1 Toy Story (1995) Animation|Children's|Comedy1 2 Jumanji (1995) 
Adventure|Children's|Fantasy2 3 Grumpier Old Men (1995) Comedy|Romance3 4 Waiting to 
Exhale (1995) Comedy|Drama4 5 Father of the Bride Part I| (1995) Comedyln [337]: 
ratingsOut[337]:Int64Index: 1000209 entries, 0 to 1000208Data columns:user_id 1000209 
non-null valuesmovie_id 1000209 non-null valuesrating 1000209 non-null valuestimestamp 
1000209 non-null valuesdtypes: int64(4) 


注意 ， 其 中 的 年 龄 和 职业 是 以 编码 形式 给 出 的 ， 它 们 的 具体 含义 请 参考 该 数据 集 的 README 


文件 。 分 析 散 布 在 三 个 表 中 的 数据 可 不 是 一 件 轻 松 的 事情 。 假 设 我 们 想 要 根据 性 别 和 年 龄 计 
算 某 部 电影 的 平均 得 分 ， 如 果 将 所 有 数据 都 合并 到 一 个 表 中 的 话 问题 就 简单 多 了 。 我 们 先 用 


pandas 的 merge 画 数 将 ratings 跟 users 合 并 到 一 起 ， 然 后 再 将 movies 也 合并 进去 。pandas 会 
根据 列 名 的 重 受 情况 推断 出 哪些 列 是 合并 (或 连接 ) 键 : 


In [338]: data = pd.merge(pd.merge(ratings, users), movies)In [339]: 
dataOut[339]:Int64Index: 1000209 entries, 0 to 1000208Data columns:user id 1000209 non- 
null valuesmovie_id 1000209 non-null valuesrating 1000209 non-null valuestimestamp 
1000209 non-null valuesgender 1000209 non-null valuesage 1000209 non-null 
valuesoccupation 1000209 non-null valueszip 1000209 non-null valuestitle 1000209 non-null 
valuesgenres 1000209 non-null valuesdtypes: int64(6), object(4)In [340]: 
data.ix[0]Out[340]:user_id 1movie id 1rating Stimestamp 978824268gender Fage 
1occupation 10zip 48067title Toy Story (1995)genres Animation|Children's|ComedyName: 0 


现在 ， 只 要 稍微 熟悉 一 下 pandas， 就 能 轻松 地 根据 任意 个 用 户 或 电影 属性 对 评分 数据 进行 聚 
合 操作 了 。 为 了 按 性 别 计算 每 部 电影 的 平均 得 分 ， 我 们 可 以 使 用 pivot table 方 法 : 


In [341]: mean_ratings = data.pivot_table('rating', rows='title', ....: cols='gender,, 
aggfunc="'mean')In [342]: mean_ratings[:5]Out[342]:gender F Mtitle$1,000,000 Duck (1971) 
3.375000 2.761905'Night Mother (1986) 3.388889 3.352941'"Til There Was You (1997) 
2.675676 2.733333'burbs, The (1989) 2.793478 2.962085...And Justice for All (1979) 
3.828571 3.689024 


该 操作 产生 了 另 一 个 DataFrame， 其 内 容 为 电影 平均 得 分 ， 行 标 为 电影 名 称 ， 列 标 为 性 别 。 
现在 ， 我 打算 过 小 掉 评分 数据 不 够 250 条 的 电影 随便 选 的 一 个 数字 ) 。 为 了 达到 这 个 目的 ， 
我 先 对 title 进 行 分 组 ， 然 后 利用 size() 得 到 一 个 含有 各 电影 分 组 大 小 的 Series 对 象 : 


In [343]: ratings_by title = data.groupby('title').size()In [344]: 
ratings_by_title[:10]Out[344]:title$1,000,000 Duck (1971) 37'Night Mother (1986) 70"Til 
There Was You (1997) 52'burbs, The (1989) 303...And Justice for All (1979) 1991-900 
(1994) 210 Things | Hate About You (1999) 700101 Dalmatians (1961) 565101 Dalmatians 
(1996) 36412 Angry Men (1957) 616In [345]: active_titles = 

ratings_by title.index[ratings_by title >= 250]In [346]: active titlesOut[346]:Index([burbs， 
The (1989), 10 Things | Hate About You (1999), 101 Dalmatians (1961), ..., Young Sherlock 
Holmes (1985), Zero Effect (1998), existenZ (1999)], dtype=object) 


该 索引 中 含有 评分 数据 大 于 250 条 的 电影 名 称 ， 然 后 我 们 就 可 以 据 此 从 前 面 的 mean_ratings 中 
选取 所 需 的 行 了 : 


In [347]: mean_ratings = mean_ratings.ix[active titles]ln [348]: mean_ratingsOut[348]:Index: 
1216 entries, 'burbs, The (1989) to eXistenZ (1999)Data columns:F 1216 non-null valuesM 
1216 non-null valuesdtypes: float64(2) 


为 了 了 解 女性 观众 最 喜欢 的 电影 ， 我 们 可 以 对 F 列 降序 排列 : 


In [350]: top_female_ratings = mean _ratings.sort_index(by='F', ascending=False)ln [351]: 
top_female_ratings[:10]Out[351]:gender F MtitleClose Shave, A (1995) 4.644444 
4.473795Wrong Trousers, The (1993) 4.588235 4.478261Sunset Blvd. (a.k.a. Sunset 
Boulevard) (1950) 4.572650 4.464589Wallace & Gromit: The Best of Aardman Animation 
(1996) 4.563107 4.385075Schindler's List (1993) 4.562602 4.491415Shawshank 
Redemption, The (1994) 4.539075 4.560625Grand Day Out, A (1992) 4.537879 4.293255To 
Kill a Mockingbird (1962) 4.536667 4.372611Creature Comforts (1990) 4.513889 
4.272277Usual Suspects, The (1995) 4.513317 4.518248 


计算 评分 分 卜 

假设 我 们 想 要 找 出 男性 和 女性 观众 分 歧 最 大 的 电影 。 一 个 办 法 是 给 mean_ratings 加 上 一 个 用 
于 存放 平均 得 分 之 差 的 列 ， 并 对 其 进行 排序 : 

In [352]: mean_ratings['diff] = mean_ratings['M'] - mean_ratings['F"] 

按 "diff' 排 序 即 可 得 到 分 歧 最 大 且 女 性 观众 更 喜欢 的 电影 : 


In [353]: sorted_by diff = mean_ratings.sort_index(by='diff )In [354]: 

sorted_ by _diff[:15]Out[354]:gender F M difftitleDirty Dancing (1987) 3.790378 2.959596 
-0.830782Jumpin' Jack Flash (1986) 3.254717 2.578358 -0.676359Grease (1978) 3.975265 
3.367041 -0.608224Little Women (1994) 3.870588 3.321739 -0.548849Steel Magnolias 
(1989) 3.901734 3.365957 -0.535777Anastasia (1997) 3.800000 3.281609 -0.518391Rocky 
Horror Picture Show, The (1975) 3.673016 3.160131 -0.512885Color Purple, The (1985) 
4.158192 3.659341 -0.498851Age of Innocence, The (1993) 3.827068 3.339506 
-0.487561Free Willy (1993) 2.921348 2.438776 -0.482573French Kiss (1995) 3.535714 
3.056962 -0.478752Little Shop of Horrors, The (1960) 3.650000 3.179688 -0.470312Guys 
and Dolls (1955) 4.051724 3.583333 -0.468391Mary Poppins (1964) 4.197740 3.730594 
-0.467147Patch Adams (1998) 3.473282 3.008746 -0.464536 


对 排序 结果 反 序 并 取出 前 15 行 ， 得 到 的 则 是 男性 观众 更 喜欢 的 电影 : 


对 行 反 序 ， 并 取出 前 15 行 In [355]: 

sorted by diff[::-1][:15]Out[355]:gender F 
M difftitleGood, The Bad and The Ugly, The 
(1966) 3.494949 4.221300 
0.726351Kentucky Fried Movie, The (1977) 
2.878788 3.555147 0.676359Dumb & 
Dumber (1994) 2.697987 3.336595 


0.638608Longest Day, The (1962) 3.411765 
4.031447 0.619682Cable Guy, The (1996) 
2.250000 2.863787 0.613787Evil Dead 1 
(Dead By Dawn) (1987) 3.297297 3.909283 
0.611985Hidden, The (1987) 3.137931 
3.745098 0.607167Rocky lll (1982) 2.361702 
2.943503 0.581801Caddyshack (1980) 
3.396135 3.969737 0.573602For a Few 
Dollars More (1965) 3.409091 3.953795 
0.544704Porky's (1981) 2.296875 2.836364 
0.539489Animal House (1978) 3.628906 
4.167192 0.538286Exorcist, The (1973) 
3.537634 4.067239 0.529605Fright Night 
(1985) 2.973684 3.500000 0.526316Barb 
Wire (1996) 1.585366 2.100386 0.515020 


如 果 只 是 想 要 找 出 分 歧 最 大 的 电影 (不 考虑 性 别 因素 ) ， 则 可 以 计算 得 分 数据 的 方差 或 标准 
二 二 


根据 电影 名 称 分 组 的 得 分 数据 的 标准 差 In 
[356]: rating_std_ by title = 
data.groupby('title")['rating"].std()## 根据 
active_titles 进 行 过 滤 In [357]: 
rating_std by title = 
rating_std_by_title.ix[active_titles]# 根据 值 
对 Series 进 行 降序 排列 In [358]: 

rating_std_ by title.order(ascending=False 


)[:10]Out[358]:titleDumb & Dumber (1994) 
1.321333Blair Witch Project, The (1999) 
1.316368Natural Born Killers (1994) 
1.307198Tank Girl (1995) 1.277695Rocky 
Horror Picture Show, The (1975) 
1.260177Eyes Wide Shut (1999) 
1.259624Evita (1996) 1.253631Billy 
Madison (1995) 1.249970Fear and Loathing 
in Las Vegas (1998) 1.246408Bicentennial 
Man (1999) 1.245533Name: rating 


可 能 你 已 经 注意 到 了 ， 电 影 分 类 是 以 坚 线 (|) 分 隔 的 字符 串 形式 给 出 的 。 如 果 想 对 电影 分 类 
进行 分 析 的 话 ， 就 需要 先 将 其 转换 成 更 有 用 的 形式 才 行 。 我 将 在 本 书后 续 章节 中 讲 到 这 种 转 
换 处 理 ， 到 时 还 会 再 用 到 这 个 数据 。 


1880-2010 年 间 全 美 婴 儿 姓 名 


美国 社会 保障 总 署 (SSA) 提供 了 一 份 从 1880 年 到 2010 年 的 婴儿 名 字 频 率 数据 。Hadley 
Wickham (许多 流行 R 包 的 作者 ) 经 常用 这 份 数据 来 演示 RR 的 数据 处 理 功能 。 


In [4]: names.head(10)Out[4]: name sex births year0 Mary F 7065 18801 Anna F 2604 
18802 Emma F 2003 18803 Elizabeth F 1939 18804 Minnie F 1746 18805 Margaret F 1578 
18806 lda F 1472 18807 Alice F 1414 18808 Bertha F 1320 18809 Sarah F 1288 1880 


你 可 以 用 这 个 数据 集 做 很 多 事 ， 例 如 : 

:计算 指定 名 字 (可 以 是 你 自己 的 ， 也 可 以 是 别人 的 ) 的 年 度 比例 。 

:计算 某 个 名 字 的 相对 排名 。 

:计算 各 年 度 最 流行 的 名 字 ， 以 及 增长 或 减少 最 快 的 名 字 。 

-分析 名 字 趋 势 : 元 音 、 辅 音 、 长 度 、 总 体 多 样 性 、 拼 写 变 化 、 首 尾 字母 等 。 
分 析 外 源 性 趋势 : 圣经 中 的 名 字 、 名 人 、 人 口 结构 变化 等 。 


利用 前 面 介绍 过 的 那些 工具 ， 这 些 分 析 工 作 都 能 很 轻松 地 完成 ， 因 此 我 会 尽量 多 讲 一 些 。 我 
建议 你 下 载 这 些 数据 并 亲自 试 一 试 。 如 果 你 在 这 些 数据 中 找到 了 某 个 有 趣 的 模式 ， 我 将 非常 
乐意 听 上 一 听 。 


到 编写 本 书 时 为 止 ， 美 国 社会 保障 总 署 将 该 数据 库 按 年 度 制 成 了 多 个 数据 文件 ， 其 中 给 出 了 
每 个 性 别 /名 字 组 合 的 出 生 总 数 。 这 些 文件 的 原始 档案 可 以 在 这 里 获取 : 译注 6 


http://www.ssa.gov/oact/babynames/limits.html? 


如 果 你 在 阅读 本 书 的 时 候 这 个 页 面 已 经 不 见 了 ， 也 可 以 用 搜索 引擎 找 找 。 下 载 "National 
data" 文 件 names.zip， 解 压 后 的 目录 中 含有 一 组 文件 (如 yob1880.txt) 。 我 用 UNIX 的 head 命 
兮 查 看 了 其 中 一 个 文件 的 前 10 行 〈 在 Windows 上 ， 你 可 以 用 more 命 令 ， 或 直接 在 文本 编辑 器 
中 打开 ) : 


In [367]: !head -n 10 
names/yob1880.txtMary,F,7065Anna,F,2604Emma,F,2003Elizabeth,F,1939Minnie,F,1746Ma 
rgaret,F,1578lda,F,1472Alice,F,1414Bertha,F,1320Sarah,F,1288 


由 于 这 是 一 个 非常 标准 的 以 逗号 隔 开 的 格式 ， 所 以 可 以 用 pandas.read_csv 将 其 加 载 到 
DataFrame 中 : 


In [368]: import pandas as pdln [369]: names1880 = pd.read_csv(Cnames/yob1880.txt， 
names=[name'， 'sex', 'births'])In [370]: names1880Out[370]:Int64Index: 2000 entries, 0 to 
1999Data columns:name 2000 non-null valuessex 2000 non-null valuesbirths 2000 non-null 
valuesdtypes: int64(1), object(2) 


这 些 文件 中 仅 含有 当年 出 现 超过 5 次 的 名 字 。 为 了 简单 起 见 ， 我 们 可 以 用 births 列 的 sex 分 组 小 
计 表 示 该 年 度 的 births 总 计 : 


In [371]: names1880.groupby('sex').births.sum()Out[371]:sexF 90993M 110493Name: births 


由 于 该 数据 集 按 年 度 被 分 隔 成 了 多 个 文件 ， 所 以 第 一 件 事情 就 是 要 将 所 有 数据 都 组 装 到 一 个 
DataFrame 里 面 ， 并 加 上 一 个 year 字 段 。 使 用 pandas.concat 即 可 达到 这 个 目的 : 


2010 是 目前 最 后 一 个 有 效 统计 年 度 years = 
range(1880, 2011)pieces = [Jcolumns = 
[name ，sex，births ]for year in years: 
path = names/yobyod.txt' % year frame = 
pd.read_csv(path, names=columns) 
frame[year] = year pieces.append(frame)# 
将 所 有 数据 整合 到 单个 DataFrame 中 names = 
pd.concat(pieces, ignore_ index=True) 


这 里 需要 注意 几 件 事情 。 第 一 ，concat 默 认 是 按 行 将 多 个 DataFrame 组 合 到 一 起 的 ; 第 二 ， 
必须 指定 ignore_index=True， 因 为 我 们 不 希望 保留 read_csv 所 返回 的 原始 行 号 。 现 在 我 们 得 
到 了 一 个 非常 大 的 DataFrame， 它 含有 全 部 的 名 字数 据 。 


现在 names 这 个 DataFrame 对 象 看 上 去 应 该 是 这 个 样子 : 


In [373]: namesOut[373]:Int64Index: 1690784 entries, 0 to 1690783Data columns:name 
1690784 non-null valuessex 1690784 non-null valuesbirths 1690784 non-null valuesyear 
1690784 non-null valuesdtypes: int64(2), object(2) 


有 了 这 些 数据 之 后 ， 我 们 就 可 以 利用 groupby 或 pivot_table 在 year 和 sex 级 别 上 对 其 进行 聚合 
了 ， 如 图 2-4 所 示 : 


In [374]: total _births = names.pivot table(births', rows='year, ...: cols='sex', aggfunc=sum)In 
[375]: total _births.tail()Out[375]:sex F Myear2006 1896468 20502342007 1916888 
20692422008 1883645 20323102009 1827643 19733592010 1759010 1898382ln [376]: 
total_births.plot(title="Total births by sex and year') 


下 面 我 们 来 插入 一 个 prop 列 ， 用 于 存放 指定 名 字 的 婴儿 数 相对 于 总 出 生 数 的 比例 。prop 值 为 
0.02 表 示 每 100 名 婴儿 中 有 2 名 取 了 当前 这 个 名 字 。 因 此 ， 我 们 先 按 year 和 sex 分 组 ， 然 后 再 将 
新 列 加 到 各 个 分 组 上 : 


def add_prop(group):# 整数 除法 会 向 下 圆 整 births = group.births.astype(float) group['prop'] 
= births / births.sum() return groupnames = names.groupby([year， 
'sex']).apply(add_prop) 

注意 : 由 于 births 是 整数 ， 所 以 我 们 在 计算 分 式 时 必须 将 分 子 或 分 母 转换 成 浮 点 数 ( 除 非 你 正 
在 使 用 Python 31) 。 
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图 2-4 : 按 性 别 和 年 度 统计 的 总 出 生 数 
现在 ， 完 整 的 数据 集 就 有 了 下 面 这 些 列 : 


In [378]: namesOut[378]:Int64Index: 1690784 entries, 0 to 1690783Data columns:name 
1690784 non-null valuessex 1690784 non-null valuesbirths 1690784 non-null valuesyear 
1690784 non-null valuesprop 1690784 non-null valuesdtypes: float64(1), int64(2), object(2) 


在 执行 这 样 的 分 组 处 理 时 ， 一 般 都 应 该 做 一 些 有 效 性 检查 ， 比 如 验证 所 有 分 组 的 prop 的 总 和 
是 否 为 1。 由 于 这 是 一 个 浮 点 型 数据 ， 所 以 我 们 应 该 用 np.allclose 来 检查 这 个 分 组 总 计 值 是 否 
足够 近似 于 (可 能 不 会 精确 等 于 ) 1 : 


In [379]: np.allclose(names.groupby!(['year", 'sex']).prop.sum!(), 1)Out[379]: True 


这 样 就算 完 活 了 。 为 了 便于 实现 更 进一步 的 分 析 ， 我 需要 取出 该 数据 的 一 个 子 集 : 每 对 
sex/year 组 合 的 前 1000 个 名 字 。 这 又 是 一 个 分 组 操作 : 


def get top1000(group): return group.sort_index(by='births, ascending=False) 
[:1000]grouped = names.groupby(['year', 'sex'|)top1000 = grouped.apply(get top1000) 


如 果 你 喜欢 DIY 的 话 ， 也 可 以 这 样 : 


pieces = [for year, group in names.groupby(['year', 'sex'"]): 
pieces.append(group.sort_index(by='births', scending=False)[:1000])top1000 = 
pd.concat(pieces, ignore_index=True) 


现在 的 结果 数据 集 就 小 多 了 : 


In [382]: top1000Out[382]:Int64Index: 261877 entries, 0 to 261876Data columns:name 
261877 non-null valuessex 261877 non-null valuesbirths 261877 non-null valuesyear 
261877 non-null valuesprop 261877 non-null valuesdtypes: float64(1), int64(2), object(2) 


接 下 来 的 数据 分 析 工 作 就 针对 这 个 top1000 数 据 集 了 。 
分 析 命 名 趋势 


有 了 完整 的 数据 集 和 刚才 生成 的 top1000 数 据 集 ， 我 们 就 可 以 开始 分 析 各 种 命名 趋势 了 。 首 先 
将 前 1000 个 名 字 分 为 男女 两 个 部 分 : 


In [383]: boys = top1000[top1000.sex == 'M']In [384]: girls = top1000[top1000.sex == 'F"] 


这 是 两 个 简单 的 时 间 序 列 ， 只 需 稍 作 整理 即 可 绘制 出 相应 的 图 表 (比如 每 年 叫做 John 和 Mary 
的 婴儿 数 ) 。 我 们 先生 成 一 张 按 year 和 name 统 计 的 总 出 生 数 透视 表 : 


In [385]: total _births = top1000.pivot table(births', rows='year, cols='name,, ...: 
aggfunc=sum) 


现在 ， 我 们 用 DataFrame 的 plot 方 法 绘制 几 个 名 字 的 曲线 图 : 


In [386]: total_birthsOut[386]:Int64Index: 131 entries, 1880 to 2010Columns: 6865 entries, 
Aaden to Zuridtypes: float64(6865)In [387]: subset = total_births[['John', "Harry'", "Mary,, 
'Marilyn']]In [388]: subset.plot(subplots=True, figsize=(12, 10), grid=False, ...: title="Number 


of births per year ) 


最 终结 果 如 图 2-5 所 示 。 从 图 中 可 以 看 出 ， 这 几 个 名 字 在 美国 人 民 的 心目 中 已 经 风光 不 再 了 。 
但 事实 并 非 如 此 简单 ， 我 们 在 下 一 节 中 就 能 知道 是 怎么 一 回 事 了 。 











图 2-5 : 几 个 男孩 和 女孩 名 字 随 时 间 变 化 的 使 用 数量 
评估 命名 多 样 性 的 增长 


图 2-5 所 反映 的 降低 情况 可 能 意味 着 父母 愿意 给 小 孩 起 常见 的 名 字 越 来 越 少 。 这 个 假设 可 以 从 
数据 中 得 到 验证 。 一 个 办 法 是 计算 最 流行 的 1000 个 名 字 所 占 的 比例 ， 我 按 year 和 sex 进 行 聚 合 
并 绘图 : 


In [390]: table = top1000.pivot_ table(prop', rows='year, .… cols='sex', aggfunc=sum)In 
[391]: table.plot(title='Sum of table1000.prop by year and sex,', ...: yticks=np.linspace(0, 1.2， 
13), xticks=range(1880, 2020, 10)) 


结果 如 图 2-6 所 示 。 从 图 中 可 以 看 出 ， 名 字 的 多 样 性 确实 出 现 了 增长 (前 1000 项 的 比例 降 
低 ) 。 另 一 个 办 法 是 计算 占 总 出 生 人 数 前 50% 的 不 同名 字 的 数量 ， 这 个 数字 不 太 好 计算 。 我 
们 只 考虑 2010 年 男孩 的 名 字 : 


In [392]: df = boys[boys.year == 2010]In [393]: dfOut[393]:Int64Index: 1000 entries, 260877 
to 261876Data columns:name 1000 non-null valuessex 1000 non-null valuesbirths 1000 
non-null valuesyear 1000 non-null valuesprop 1000 non-null valuesdtypes: float64(1), 
int64(2), object(2) 
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图 2-6 : 分 性 别 统计 的 前 1000 个 名 字 在 总 出 生 人 数 中 的 比例 


在 对 prop 降 序 排列 之 后 ， 我 们 想 知道 前 面 多 少 个 名 字 的 人 数 加 起 来 地 够 50%。 虽然 编写 一 
for 循 环 确 实 也 能 达到 目的 ， 但 NumPy 有 一 种 更 聪明 的 矢量 方式 。 先 计算 prop 的 累计 和 
cumsum， 然 后 再 通过 searchsorted 方 法 找 出 0.5 应 该 被 插入 在 哪个 位 置 才能 保证 不 破坏 顺 
序 : 


In [394]: prop_cumsum = df.sort_index(by='"prop', ascending=False).prop.cumsum()In [395]: 
prop_cumsum[:10]Out[395]:260877 0.011523260878 0.020934260879 0.029959260880 
0.038930260881 0.047817260882 0.056579260883 0.065155260884 0.073414260885 
0.081528260886 0.089621In [396]: prop_cumsum.searchsorted(0.5)Out[396]: 116 


由 于 数组 素 引 是 从 0 开始 的 ， 因 此 我 们 要 给 这 个 结果 加 1， 即 最 终结 果 为 117。 拿 1900 年 的 数据 
来 做 个 比较 ， 这 个 数字 要 小 得 多 

In [397]: df = boys[boys.year == 1900]In [398]: in1900 = df.sort_index(by='"prop,, 
ascending=False).prop.cumsum()In [399]: in1900.searchsorted(0.5) + 1Out[399]: 25 
a 执行 这 个 计算 了 。 按 这 两 个 字段 进行 groupby 义 理 ， 然 后 用 一 
个 函数 计算 各 分 组 的 这 个 值 

def get_quantile_count(group, q=0.5): group = group.sort_index(by='prop', ascending=False) 


return group.prop.cumsum().searchsorted(q) + 1diversity = top1000.groupby([year， 
'sex']).apply(get_quantile_count)diversity = diversity.unstack('sex') 


现在 ， 外 个 时 间 序 列 (每 个 性 别 各 一 个 ， 按 年 度 索 引 ) 。 
IPython， 你 可 以 查看 其 内 容 ， 还 可 以 像 之 前 那样 绘制 图 表 (如 图 2- i 


In [401]: diversity.head()Out[401]:sex F Myear1880 38 141881 38 141882 38 151883 39 
151884 39 16In [402]: diversity.plot(title="Number of popular names in top 50%") 
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图 2-7 : 按 年 度 统计 的 密度 表 


从 图 中 可 以 看 出 ， 女 孩 名 字 的 多 样 性 总 是 比 男 孩 的 高 ， 而 且 还 在 变 得 越 来 越 高 。 读 者 们 可 以 
自己 分 析 一 下 具体 是 什么 在 驱动 这 个 多 样 性 〈 比 如 拼写 形式 的 变化 ) 。 


“最 后 一 个 字母 "的 变革 


2007 年 ， 一 名 婴儿 姓名 研究 人 员 Laura Wattenberg 在 她 自己 的 网 站 上 指出 
(http://www.babynamewizard.com) : 近 百 年 来 ， 男 孩 名 字 在 最 后 一 个 字母 上 的 分 布 发 生 了 
显著 的 变化 。 为 了 了 解 具 体 的 情况 ， 我 首先 将 全 部 出 生 数 据 在 年 度 、 性 别 以 及 末 字 母 上 进行 


了 聚合 : 


从 name 列 取出 最 后 一 个 字母 get_last_letter = 
lambda x: x[-1]last letters = 
names.name.map(get last letter)last lette 
rs.name = last lettertable = 

names.pivot table(births ， 

rows=last letters, cols=[sex ，year ], 
aggfunc=sum) 


然后 ， 我 选 出 具有 一 定 代表 性 的 三 年 ， 并 输出 前 面 几 行 : 


In [404]: subtable = table.reindex(columns=[1910, 1960, 2010], level='year)ln [405]: 
subtable.head()Out[405]:sex F Myear 1910 1960 2010 1910 1960 2010last lettera 108376 
691247 670605 977 5204 28438b NaN 694 450 411 3912 38859c 5 49 946 482 15476 


23125d 6750 3729 2607 22111 262112 44398e 133569 435013 313833 28655 178823 
129012 


接 下 来 我 们 需要 按 总 出 生 数 对 该 表 进行 规范 化 处 理 ， 以 便 计算 出 各 性 别 各 末 字 母 占 总 出 生 人 
数 的 比例 : 


In [406]: subtable.sum()Out[406]:sex yearF 1910 396416 1960 2022062 2010 1759010M 
1910 194198 1960 2132588 2010 1898382In [407]: letter_prop = subtable / 
subtable.sum().astype(float) 


有 了 这 个 字母 比例 数据 之 后 ， 就 可 以 生成 一 张 各 年 度 各 性 别 的 条 形 图 了 ， 如 图 2-8 所 示 : 


import matplotlib.pyplot as pltfig, axes = plt.subplots(2, 1, figsize=(10, 
8))jletter_prop[M'].plot(kind='bar, rot=0, ax=axes[0], 
title='Male')letter_prop['F'].plot(kind="bar", rot=0, ax=axes[1], title='Female', legend=False) 
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图 2-8 : 男孩 女孩 名 字 中 各 个 末 字 母 的 比例 


从 图 2-8 中 可 以 看 出 ， 从 20 世 纪 60 年 代 开始 ， 以 字母 "n" 结 尾 的 男孩 名 字 出 现 了 显著 的 增 es 回 
到 之 前 创建 的 那个 完整 表 ， 按 年 度 和 性 别 对 其 进行 规范 化 处 理 ， 并 在 男孩 名 字 中 选取 几 个 字 
母 ， 最 后 进行 转 置 以 便 将 各 个 列 做 成 一 个 时 间 序 列 : 


In [410]: letter_prop = table /table.sum().astype(float)In [411]: dny_ts = letter_prop.ix[['d', 'n", 
'y], 'M'.TIin [412]: dny_ts.head()Out[412]: d n yyear1880 0.083055 0.153213 0.0757601881 
0.083247 0.153214 0.0774511882 0.085340 0.149560 0.0775371883 0.084066 0.151646 
0.0791441884 0.086120 0.149915 0.080405 


有 了 这 个 时 间 序 列 的 DataFrame 之 后 ， 就 可 以 通过 其 plot 方 法 绘制 出 一 张 趋势 图 了 〈 如 图 2-9 
所 示 ) 


In [414]: dny_ts.plot() 
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图 2-9 : 各 年 出 生 的 男孩 中 名 字 以 d/m/y 结 尾 的 人 数 比 例 
变 成 女孩 名 字 的 男孩 名 字 (以 及 相反 的 情况 ) 


另 一 个 有 趣 的 趋势 是 ， 早 年 流行 于 男孩 的 名 字 近 年 来 “变性 了 ”， 例 如 Lesley 或 Leslie。 回 到 
top1000 数 据 集 ， 找 出 其 中 以 "lesl" 开 头 的 一 组 名 字 : 


In [415]: all_names = top1000.name.unique()In [416]: mask = np.array([lesl in x.lower() for x 
in all_names])In [417]: lesley_like = all_ names[maskl]ln [418]: lesley_likeOut[418]: 
array([Leslie, Lesley Leslee, Lesli, Lesly], dtype=object) 


然后 利用 这 个 结果 过 滤 其 他 的 名 字 ， 并 按 名 字 分 组 计算 出 生 数 以 查看 相对 频率 : 


In [419]: filtered = top1000[top1000.name.isin(lesley_ like)]llIn [420]: 
filtered.groupby('name').births.sum()Out[420]:nameLeslee 1082Lesley 35022Lesli 929Leslie 
370429Lesly 10067Name: births 


接 下 来 ， 我 们 按 性 别 和 年 度 进行 聚合 ， 并 按 年 度 进行 规范 化 处 理 : 


In [421]: table = filtered.pivot_table('births', rows="'year', ...: cols='sex', aggfunc='sum')In 
[422]: table = table.div(table.sum(1), axis=0)In [423]: table.tail()Out[423]:sex F Myear2006 1 
NaN2007 1 NaN2008 1 NaN2009 1 NaN2010 1 NaN 


现在 ， 我 们 就 可 以 轻松 绘制 一 张 分 性 别 的 年 度 曲线 图 了 (如 图 2-10 所 示 ) 


In [425]: table.plot(style={M': k-", 'F"': k--'}) 
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图 2-10 : 各 年 度 使 用 “Lesley 型 "名 字 的 男女 比例 

译注 6 

: 如 下 链接 可 能 不 可 用 ， 读 者 可 直接 在 本 书 的 gthub 上 下 载 。 

小 结 及 展望 

本 章 中 的 这 些 例 子 都 非常 简单 ， 但 它们 可 以 让 你 大 致 了 解 后 续 章 节 的 相关 内 容 。 本 书 关注 的 


焦点 是 工具 而 不 是 那些 复杂 精妙 的 分 析 方 法 。 掌 握 本 书 所 介绍 的 技术 将 使 你 能 够 立马 开展 自 
己 的 分 析 工 作 (假设 你 已 经 知道 要 做 什么 了 ) 。 


第 3 章 ”IPython : 一 种 交互 式 计算 和 开发 环境 
为 无 为 ， 事 无 事 ， 味 无 味 。 大 小 多 少 。 报 怨 以 德 。 
图 难于 其 易 ， 为 大 于 其 细 ; 

天 下 难事 ， 必 作 于 易 ; 天 下 大 事 ， 必 作 于 细 。 
一 一 老子 


人 们 经 常 问 我 , “你 的 Python 开发 环境 是 什么 ? ”我 的 回答 基本 永远 都 是 “IPython 外 加 一 个 文本 
编辑 器 "。 如 果 想 要 得 到 更 加 高 级 的 图 形 化 工具 和 代码 自动 完成 功能 ， 你 也 可 以 考虑 用 一 款 集 
成 开发 环境 (IDE) 来 代 蔡 文 本 编辑 器 。 即 便 如 此 ， 我 仍然 强烈 建议 你 将 IPython 作 为 工作 中 
的 重要 工具 。 有 的 IDE 甚 至 本 身 就 集成 了 IPython， 所 以 说 两 全 其 美的 办 法 还 是 有 的 。 


2001 年 ，Fernando Pe6rez 为 了 得 到 一 个 更 为 高 效 的 交互 式 Python 解释 器 而 启动 了 一 个 业余 项 
目 ， 于 是 IPython 项 目 诞 生 了 。 在 接 下 来 的 11 年 中 ， 它 逐渐 被 公认 为 现代 科学 计算 中 最 重要 的 
Python 工具 之 一 。IPython 本 身 并 没有 提供 任何 的 计算 或 数据 分 析 功能 ， 其 设计 目的 是 在 交互 
式 计算 和 软件 开发 这 两 个 方面 最 大 化 地 提高 生产 力 。 它 鼓励 一 种 “执行 一 探索 ”(execute 
explore) 的 工作 模式 ， 而 不 是 许多 其 他 编程 语言 那 种 “编辑 一 编译 一 运行 ”(edit-complie- 
run) 的 传统 工作 模式 。 此 外 ， 它 跟 操作 系统 shell 和 文件 系统 之 间 也 有 着 非常 紧密 的 集成 。 由 
于 大 部 分 的 数据 分 析 代 码 都 含有 探索 式 操作 〈 试 误 法 和 迭代 法 ) ， 因 此 IPython (在 绝 大 多 数 
情况 下 ) 将 有 助 于 提高 你 的 工作 效率 。 


当然 了 ，IPython 项 目 现 在 已 经 不 再 只 是 一 个 加 强 版 的 交互 式 Python shell， 它 还 有 一 个 可 以 直 
接 进 行 绘图 操作 的 GUI 控制 台 、 一 个 基于 Web 的 交互 式 笔记 本 ， 以 及 一 个 轻 量 级 的 快速 并 行 计 
算 引 擎 。 此 外 ， 跟 许多 其 他 专 为 程序 员 设 计 (以 及 由 程序 员 设 计 ) 的 工具 一 样 ， 它 也 是 高 度 
可 定制 的 。 我 将 在 本 章 最 后 介绍 一 些 这 样 的 功能 。 


由 于 IPython 的 核心 功能 是 交互 ， 所 以 在 没有 动态 控制 台 的 情况 下 ， 本 章 中 的 某 些 功 能 很 难说 
得 清楚 。 如 果 这 是 你 第 一 次 学 习 IPython， 那 我 建议 你 照 着 例子 实际 动手 试 试 ， 感 觉 一 下 到 底 
是 怎么 一 回 事 。 跟 所 有 由 键盘 驱动 的 控制 台 环 境 一 样 ， 锻 炼 对 常用 命令 的 肌肉 记忆 是 学 习 曲 
线 中 不 可 或 缺 的 一 部 分 。 


注意 : 在 第 一 次 阅读 时 ， 本 章 的 许多 内 容 都 可 跳 过 不 看 ， 因 为 它们 对 理解 本 书 其 余 的 内 容 没 
有 影响 。 本 章 的 目的 是 让 你 对 IPython 所 提供 的 功能 有 一 个 全 面 的 了 解 。 


IPython 基 础 


你 可 以 通过 命令 行 启 动 |Python， 就 像 启动 标准 Python 解释 器 那样 ， 只 是 把 命令 改 为 jpython 黑 
本 


$ ipythonPython 2.7.2 (default, May 27 2012, 21:26:12)Type "copyright", "credits" or 
"license" for more information.IPython 0.12 -- An enhanced Interactive Python.? -> 
Introduction and overview of IPython's features.%quickref -> Quick reference.help -> 
Python's own help system.object? -> Details about 'object', use 'object??' for extra details.In 
[1]: a = SIn [2]: aOut[2]: 5 


你 可 以 在 这 里 执行 任何 Python 语句 ， 只 需 将 其 输入 然后 按 下 回 车 键 就 行 了 。 如 果 只 是 在 
IPython 中 输入 了 一 个 变量 ， 那 么 它 将 会 显示 出 该 对 象 的 一 个 字符 串 表 示 : 译注 1 


In[541] : import numpy as npln[542]: data = {i : randn() for i in range(7)}?In [543]: 
dataOut[543]:{0: 0.5580886709219381, 1: 0.25701015249982423, 2: 0.8876099192477288, 
3: 1.0210657329557034, 4: -0.21799201419817044, 5: 1.1388001234975833, 6: 
-0.5209890532927175} 


许多 Python 对 象 都 被 格式 化 为 可 读 性 更 好 (或 者 说 排版 更 好 ) 的 形式 ， 这 跟 print 的 普通 输出 
形式 有 着 显著 区 别 。 如 果 在 标准 Python 解释 器 中 打印 上 面 那 个 字典 对 象 ， 其 可 读 性 就 没 那么 
好 了 : 


from numpy.random import randn>>> data = {i : randn() for i in range(7)}>>> 
print data{0: -1.5948255432744511, 1: 0.10569006472787983, 2: 
1.972367135977295,3: 0.15455217573074576, 4: -0.24058577449429575, 5: 
-1.2904897053651216,6: 0.3308507317325902} 


IPython 还 可 以 方便 地 执行 任意 代码 块 〈 通 过 少量 优雅 的 复制 粘贴 操作 ) 和 整个 Python 脚本 。 
稍 后 就 会 对 该 功能 进行 介绍 。 


Tab 键 自动 完成 


从 表面 上 看 ，IPython 就 像 是 一 个 化 了 淡妆 的 交互 式 Python 解 释 器 。 数 学 软件 
(Mathematica) 用 户 可 能 会 对 标号 式 的 输入 输出 提示 符 眼 熟 。Tab 键 自动 完成 功能 是 对 标准 
Python shell 的 主要 改进 之 一 ， 大 部 分 交互 式 数据 分 析 环 境 都 有 这 个 功能 。 在 shell 中 输入 表达 
式 时 ， 只 要 按 下 Tab 键 ， 当 前 命名 空间 中 任何 与 已 输入 的 字符 串 相 匹 配 的 变量 〈 对 象 、 画 数 
等 ) 就 会 被 找 出 来 : 


In [1]: an_apple = 27In [2]: an_example = 42In [3]:an<Tab> 译 注 2an_apple and an_example 
any 译 注 3 


在 这 个 例子 中 可 以 看 到 ，1Python 将 我 定义 的 两 个 变量 都 显示 出 来 了 ， 此 外 还 显示 了 Python 关 
键 字 and 和 内 置 琅 数 any。 当 然 ， 你 也 可 以 在 任何 对 象 后 面 输入 一 个 句点 以 便 自动 完成 方法 和 
属性 的 输入 : 


In [3]: b = [1, 2, 3]In [4]: b.<Tab>b.append b.extend b.insert b.remove b.sortb.count b.index 
b.pop b.reverse 


还 可 以 应 用 在 模块 上 : 


In [1]: import datetimeln [2]: datetime.<Tab>datetime.MAXYEAR datetime.datetime 
datetime.timedeltadatetime.MINYEAR datetime.datetime_CAPI datetime .tzinfodatetime.date 


datetime .time 


注意 : IPython 默 认 会 隐藏 那些 以 下 划 线 开头 的 方法 和 属性 ， 上 比如 魔术 方法 (magic 
method) 以 及 内 部 的 “私有 ”方法 和 属性 ， 其 目的 是 避免 在 屏幕 上 显示 一 堆 乱 七 八 糟 的 东西 
(也 为 了 避免 把 Python 新 人 搞 旱 ! ) 。 其 实 这 些 也 是 可 以 通过 Tab 键 自动 完成 的 ， 只 是 你 得 先 
输入 一 个 下 划 线 才 行 。 如 果 你 就 是 喜欢 能 总 是 看 到 这 些 方 法 ， 直 接 修 改 IPython 配 置 文件 中 的 
相关 设置 就 可 以 了 。 


Tab 键 自动 完成 功能 不 只 可 以 用 于 搜索 命名 空间 和 自动 完成 对 象 或 模块 属性 。 当 你 输入 任何 看 
上 去 像 是 文件 路 径 的 东西 时 〈 即 使 是 在 一 个 Python 字符 串 中 ) ， 按 下 Tab 键 即 可 找 出 电脑 文件 
系统 中 与 之 匹配 的 东西 : 


In [3]: book_scripts/<Tab> 译 注 4book_scripts/cprof_example.py 

book_ scripts/ipython_script_test.pybook_ scripts/ipython_bug.py book_scripts/prof mod.pyln 
[3]: path = "book_scripts/<Tab>book_scripts/cprof_example.py 

book_ scripts/ipython_script_test.pybook_ scripts/ipython_bug.py book_ scripts/prof_mod.py 


如 果 再 结合 %run 命 令 (参见 后 面 内 容 ) ， 该 功能 将 显著 减少 你 敲 键盘 的 次 数 。 
Tab 键 自动 完成 功能 还 可 用 于 画 数 关 键 字 参数 (包括 等 号 (=) ! ) 。 
译注 1 


: 从 输入 输出 提示 符 来 看 ， 作 者 在 这 两 段 之 间 做 了 不 少 事情 ， 所 以 如 果 出 现 randn 找 不 到 的 情 


况 ， 请 先 执行 fom numpy.random import randn。 


译注 2 
: 后 面 的 <Tab> 只 是 一 个 按键 说 明 而 已 ， 不 用 和 输入。 顺便 说 明 一 下 ， 按 完 Tab 键 之 后 ， 已 输入 
的 内 容 会 在 下 一 行 重 复出 现 ， 行 号 也 是 一 样 的 ， 直 接 接着 往 下 输入 就 行 了 。 
译注 3 
: 根据 软件 版 本 、 配 置 以 及 当前 上 下 文 的 不 同 ， 这 里 得 到 的 结果 可 能 会 比 书 上 的 多 。 
译注 4 
: 注意 ， 要 使 用 正 斜 杠 (/) ， 不 然 认 不 出 来 。 此 外 ， 文 件 来 或 文件 名 中 间 不 能 有 空格 ， 不 然 
也 无 法 正常 继续 操作 。 
内 省 
在 变量 的 前 面 或 后 面 加 上 一 个 问号 〈(?) 就 可 以 类 有 关 该 对 象 的 一 些 通用 信息 显示 出 来 : 


In [545]: b?Type: listString Form:[1, 2, 3]Length: 3Docstring:list() -> new empty 
listlist(iterable) -> new list initialized from iterable's items 


这 就 叫做 对 象 内 省 (object introspection) 译注 5。 如 果 该 对 象 是 一 个 函数 或 实例 方法 ， 则 其 
docstring 〈 如 果 有 的 话 ) 也 会 被 显示 出 来 : 
def add_numbers(a, b): "" Add two numbers together Returns ------- the_sum : type of 
arguments "" returna+b 


然后 可 以 利用 ?来 显示 这 段 docstring : 


In [547]: add_numbers?Type: functionString Form:File: book_scripts/Definition: 
add_numbers(a, b)Docstring:Add two numbers togetherReturns------- the_sum : type of 
arguments 


使 用 ?? 还 将 显示 出 该 图 数 的 源 代码 (如 果 可 能 的 话 ) 


In [548]: add_numbers??Type: functionString Form:File: book_scripts/Definition: 
add numbers(a, b)Source:def add_ numbers(a, b): "" Add two numbers together Returns --- 


---- the_sum : type of arguments "" returna+b 


?还 有 一 个 用 法 ， 即 搜索 IPython 命 名 空间 ， 类 似 于 标准 UNIX 或 Windows 命 令 行 中 的 那 种 用 
法 。 一 些 字符 再 配 以 通配符 (*) 即 可 显示 出 所 有 和 与 该 通配符 表达 式 相 匹 配 的 名 称 。 例 如 ， 我 
们 可 以 列 出 NumPy 顶 级 命名 空间 中 含有 "load" 的 所 有 冰 数 : 


In [549]: np./oad?np.loadnp.loadsnp.loadtxtnp.pkgload 
%run 命 命 


在 IPython 会 话 环 境 中 ， 所 有 文件 都 可 以 通过 %run 命 令 当 做 Python 程序 来 运行 。 假 设 你 在 
ipython_script_ test.py 中 存放 了 一 段 简单 的 脚本 ， 如 下 所 示 : 


def f(x, y z): return (X+y) /za=5b=6c=7.5result = f(a, b, c) 
只 要 将 文件 名 传 给 %run 就 可 以 运行 了 : 
In [550]: %run ipython_script test.py 译 注 6 


脚本 是 在 一 个 空 的 命名 空间 中 运行 的 〈 没 有 任何 import， 也 没有 定义 任何 其 他 的 变量 ) ， 所 以 
其 行为 应 该 跟 在 标准 命令 行 环境 (通过 python script.py 启 动 的 ) 中 执行 时 一 样 。 此 后 ， 该 文 

件 中 所 定义 的 全 部 变量 〈 还 有 各 种 import、 画 数 和 全 局 变量 ) 就 可 以 在 当前 IPython shell 中 访 
问 了 〔 除 非 发 生 了 异常 ) 


In [551]: cOut[551]: 7.5In [552]: resultOut[552]: 1.4666666666666666 


如 果 Python 脚 本 需要 用 到 命令 行 参 数 (通过 sys.argv 访 问 ) ， 可 以 将 参数 放 到 文件 路 径 的 后 
面 ， 就 像 在 命令 行 上 执行 那样 。 


注意 : 如 果 希 望 脚本 能 够 访问 在 交互 式 IPython 命 名 空间 译注 7 中 定义 的 变量 ， 那 就 应 该 使 
用 %run i 而 不 是 %run。 


中 断 正在 执行 的 代码 


任何 代码 在 执行 时 〈 无 论 是 通过 %run 执 行 的 脚本 ， 还 是 长 时 间 运 行 的 命令 ) ， 只 要 按 下 "Ctrl- 
C"， 就 会 引发 一 个 Keyboardlnterrupt。 除 一 些 非 常 特殊 的 情况 之 外 ， 绝 大 部 分 Python 程序 都 
将 立即 停止 执行 。 


警告 : 当 Python 代 码 已 经 调用 了 某 个 已 编译 的 扩展 模块 时 ， 按 下 "Ctrl-C" 将 无 法 使 程序 立即 停 
止 执行 。 在 这 种 情况 下 ， 要 么 只 能 等 竺 Python 解释 器 重新 获得 控制 权 ， 要 么 只 能 通过 操作 系 
统 的 任务 管理 器 强制 终止 Python 进程 (比较 极端 的 情况 下 才 需 要 这 么 干 ) 。 


执行 剪贴 板 中 的 代码 


在 IPython 中 执行 代码 的 最 简单 方式 是 粘贴 剪贴 板 中 的 代码 。 虽 然 这 种 做 法 很 粗糙 ， 但 在 实际 
工作 中 却 很 有 用 。 比 如 说 ， 在 开发 一 个 复 末 或 费时 的 应 用 程序 时 ， 你 可 能 希望 能 一 段 一 段 地 
执行 脚本 ， 以 便 查看 各 个 阶段 所 加 载 的 数据 以 及 产生 的 结果 。 又 比如 说 ， 你 在 网 上 找 了 一 段 
合用 的 代码 ， 但 又 不 想 专 门 为 其 新 建 一 个 .py 文件 。 

多 数 情况 下 ， 我 们 都 可 以 通过 "Ctrl-Shift-V" 将 剪贴 板 中 的 代码 片段 粘贴 出 来 译注 8。 注 意 ， 这 
并 不 是 万 试 万 灵 的 ， 因 为 这 种 粘贴 方式 模拟 的 是 在 IPython 中 逐 行 输入 代码 ， 换 行 符 会 被 处 理 
为 <return>。 也 就 是 说 ， 如 果 你 所 粘贴 的 是 一 段 缩 进 代 码 ， 且 其 中 有 一 个 空 行 ，IPython 就 会 
认为 缩 进 在 空 行 那里 结束 了 。 当 执行 到 缩 进 块 后 面 那 行 代码 时 ， 就 会 引发 一 个 
IndentationError。 例 如 下 面 这 段 代 码 : 

X=5y=7fx>5:Xx+=1 y=8 


直接 粘贴 是 不 行 的 : 


In [1]: x = SIn [2]:y = 7In [3]: if x > 5: ...: x += 1...:In [4]:y = 8IndentationError: unexpected 
indentlf you want to paste code into IPython, try the %paste and %cpaste magic functions. 


正如 错误 提示 信息 所 说 的 那样 ， 我 们 应 该 使 用 %paste 和 %cpaste 这 两 个 魔术 函数 。%paste 可 
以 承载 航 贴 板 中 的 一 切 文 本 译注 9， 并 在 shell 中 以 整体 形式 执行 译注 10 : 

In [6]: %pastex=5y=7ifx>5:X+=1 y = 8## -- End pasted text -- 

警告 : 根据 你 的 系统 平台 以 及 Python 的 安装 情况 ，%paste 可 能 会 不 起 作用 。EPDFree (在 第 
1 章 中 介绍 过 ) 等 打包 发 布 的 版 本 应 该 没有 问题 。 

%cpaste 跟 %paste 差 不 多 译注 11， 只 不 过 它 多 出 了 一 个 用 于 粘贴 代码 的 特殊 提示 符 而 已 : 

In [7]: %cpastePasting code; enter '--' alone on the line to stop or use Ctrl-D.:x = 5:y = 7:if x 
> 5:: x += 1::y = 8:-- 


对 于 %cpaste 块 ， 在 最 终 执行 之 前 ， 你 想 粘 贴 多 少 代码 就 粘贴 多 少 。 如 果 想 在 执行 那些 粘贴 进 
去 的 代码 之 前 先 检查 一 番 ， 就 可 以 者 虑 使 用 %cpaste。 如 果 发 现 粘贴 的 代码 有 错 ， 只 需 按 
下 "Ctrl-C" 即 可 终止 %cpaste 提 示 符 。 


后 面 我 将 会 介绍 IPython HTML Notebook， 它 使 我 们 能 以 一 种 基于 浏览 器 的 notebook 格 式 逐 
段 对 可 执行 代码 单元 进行 分 析 。 
IPython 跟 编辑 器 和 IDE 之 间 的 交互 


某 些 文本 编辑 器 〈 如 Emacs 和 vim) 带 有 一 些 能 将 代码 块 直接 发 送 到 IPython shell 的 第 三 方 扩 
展 。 详 情 请 参考 IPython 网 站 或 搜索 引擎 。 


某 些 IDE (如 PyDev plugin for Eclipse 和 Python Tools for Visual Studio (微软 出 品 ) ) 都 集成 
了 IPython 终 端点 用 程序 。 如 果 你 既 想 用 IDE 又 不 想 放 弃 IPython 控 制 台 ， 这 可 能 是 个 不 错 的 选 


择 。 
键盘 快捷 键 


IPython 提 供 了 许多 用 于 提示 符 导 航 (Emacs 文 本 编辑 器 或 UNIX bash shell 的 用 户 对 此 会 很 熟 
悉 ) 和 查阅 历史 shell 命 令 〈 详 见 下 一 节 ) 的 键 胡 快捷 键 。 表 3-1 总 结 了 最 常用 的 一 些 快捷 键 。 
3-1 说 明了 几 个 光标 移动 快捷 键 的 功能 。 


C-b Cf 
4 一 一 
In [27]: a_variable In [27]: avarig Ck 
-a C-e In [27]: Cu 


3-1 : 几 个 IPython 键 胡 快 捷 键 的 用 法 


表 3-1: 1Python 标 准 键盘 快捷 键 


命令 说 明 

Ctrl-P 或 上 箭头 键 后 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命令 
Ctrl-N 或 下 箭头 键 前 向 搜索 命令 历史 中 以 当前 输入 的 文本 开头 的 命令 
Ctrl-R 按 行 读 取 的 反 向 历史 搜索 (部 分 匹配 ) 
Ctrl-Shift-v 从 剪贴 板 粘 贴 文本 

Ctrl-C 中 止 当 前 正在 执行 的 代码 

Ctrl-A 将 光标 移动 到 行 首 

Ctrl-E 将 光标 移动 到 行 尾 

Ctrl-K 删除 从 光标 开始 至 行 尾 的 文本 

Ctrl-U 清除 当前 行 的 所 有 文本 译注 1 

Ctrl-F 将 光标 向 前 移动 一 个 字符 

Ctrl-b 将 光标 向 后 移动 一 个 字符 

Ctrl-L 清 屏 


译注 12 : 这 个 快捷 键 的 功能 只 是 跟 Ctrl-K 相 反而 已 ， 即 删除 从 光标 开始 至 行 首 的 文本 ， 并 非 完 
全 删除 。 


异常 和 跟踪 


如 果 %run 某 段 脚 本 或 执行 某 条 语句 时 发 生 了 异常 ，IPython 默 认 会 输出 整个 调用 栈 跟 踪 
(traceback) ， 其 中 还 会 附 上 调用 栈 各 点 附近 的 几 行 代码 作为 上 下 文 参考 。 


In [553]: %run ch03/ipythonbug.PY----------------———————————————— 一 一 
AssertionError Traceback (most recent call 
last}//home/Wesm/code/ipython/IPython/utils/py3compat.pyc jn execfile(ftname, “where) 176 
else: 177 filename = fname--> 178 _builtin.exectfile(filename, 
*where)book_scripts/ch03/ipython_bug.py in <module>() 13 throws_an_exception() 14---> 
15 calling_things()book_scripts/chO3/ipython_bug.py in calling_things() 11 def 
calling_things(): 12 works_fine()---> 13 throws_an_exception() 14 15 
calling_things()book_scripts/ch03/ipython_bug.py in throws_an_exception()7a=58b=6-- 
--> 9 assert(a + b == 10) 10 11 def calling_things():AssertionError: 


拥有 额外 的 上 下 文 代 码 参 考 是 它 相 对 于 标准 Python 解释 器 的 一 大 优势 。 上 下 文 代码 参考 的 数 
量 可 以 通过 %xmode 魔 术 命令 进行 控制 ， 既 可 以 少 《与 标准 Python 解释 器 相同 ) 也 可 以 多 

( 带 有 图 数 参数 值 以 及 其 他 信息 ) 。 本 章 积 后 还 会 讲 到 如 何在 发 生 异 常 之 后 进入 跟踪 栈 进行 
交互 式 的 事后 调试 (post-mortem debugging) 。 


魔术 命令 


IPython 有 一 些 特殊 命令 (被 称 为 魔术 命 人 (Magic Command) ) ， 它 们 有 的 为 常见 任务 提 
供 便利 ， 有 的 则 使 你 能 够 轻松 控制 IPython 系 统 的 行为 。 魔 术 命 命 是 以 百 分 号 % 为 前 级 的 命 
令 。 例 如 ， 你 可 以 通过 %timeit 这 个 魔术 命令 检测 任意 Python 语句 (如 和 矩阵 乘法 ) 的 执行 时 间 


( 稍 后 将 对 此 进行 详细 讲解 ) 


In [554]: a = np.random.randn(100, 100)In [555]: %timeit np.dot(a, a)10000 loops, best of 3: 
69.1 us per loop 


魔术 命令 可 以 看 做 运行 于 IPython 系 统 中 的 命令 行程 序 。 它 们 大 都 还 有 一 些 “ 命 令 行 选 项 ”， 使 
用 ? 即 可 查看 其 选项 : 


In [1]: %reset?Resets the namespace by removing all names defined by the 
UserParameters---------- -f : force reset without asking for confirmation. -s : 'Soft reset: Only 
clears your namespace, leaving history intact. References to objects may be kept. By default 
(without this option), we do a 'hard' reset, giving you a new session and removing all 
references to objects from the current session.Examples-------- In [6]: a = 1In [7]: aOut[7l: 1In 
[8]: 'a' in _ip.user_nsOut[8]: Trueln [9]: %reset -fln [1]: 'a' in ip.user_ nsOut[1]: False 


魔术 命令 默认 是 可 以 不 带 百 分 号 使 用 的 ， 只 要 没有 定义 与 其 同名 的 变量 即 可 。 这 个 技术 叫做 
automagic， 可 以 通过 %automagic 打 开 或 关闭 。 


由 于 可 以 在 IPython 系 统 中 直接 访问 它 的 文档 ， 因 此 我 建议 你 浏览 一 下 所 有 这 些 特 殊 的 命令 
(输入 %quickref 或 %magic 即 可 ) 。 我 将 着 重 讲解 几 个 重要 的 有 助 于 交互 式 计算 和 Python 开 
发 的 魔术 命令 。 


表 3-2: 常用 的 IPython 魔 术 命令 


命令 说 明 

%quickref 显示 IPython 的 快速 参考 

%magic 显示 所 有 魔术 命令 的 详细 文档 

%debug wo 
%hist 印 命令 的 输入 (可 选 输出 ) 历史 

%pdb ms 后 自动 进入 调试 器 

%paste 执行 剪贴 板 中 的 Python 代码 


表 3-2: 常用 的 IPython 魔 术 命 令 ( 续 ) 


命令 说 明 

%cpaste 打开 一 个 特殊 提示 符 以 便 手 工 粘贴 待 执行 的 Python 代 码 
9%reset 删除 interactive 命 名 空间 中 的 全 部 变量 /名 称 

%page OBJECT 通过 分 页 器 打印 输出 OBJECT 

%run script .py 在 IPython 中 执行 一 个 Python 脚本 文件 

9%prun starement 通过 cpProfile 执 行 statement， 并 打印 分 析 器 的 输出 结果 
%time statrement 报告 statement 的 执行 时 间 

%timeit statement 多 次 执行 statement 以 计算 系 综 平均 执行 时 间 。 对 那些 执行 时 


间 非 常 小 的 代码 很 有 用 
%who、%who_ls、%whos 显示 interactive 命 名 空间 中 定义 的 变量 ， 信 息 级 别 / 完 余 度 可 变 
96xdel variable 删除 yariable， 并 尝试 清除 其 在 lIPython 中 的 对 象 上 的 一 切 引 用 


利用 Python 进行 数据 分 析 


基于 Qt 的 富 GUI 控制 台 


IPython 团 队 开发 了 一 个 基于 Qt 框架 (其 目的 是 为 终端 应 用 程序 提供 诸如 内 嵌 图 片 、 多 行 编 
辑 、 语 法 高 完 之 类 的 富 文 本 编辑 功能 ) 的 GUI 控 制 台 ( 见 图 3-2) 。 如 果 你 已 经 安装 了 PyQt 或 
PySide, 使 用 下 面 这 条 命令 来 启动 的 话 即 可 为 其 添加 绘 图 功能 


ipython qtconsole --pylab=inline 


Qt 控制 台 可 以 通过 标签 页 的 形式 启动 多 个 IPython 进 程 ， 这 就 使 你 能 够 在 多 个 任务 之 间 轻 松 切 
换 。 它 也 可 以 跟 IPython HTML Notebook 点 用 程序 共享 同一 个 进程 ， 稍 后 我 将 专门 对 此 进行 讲 
解 。 


matplotlib 集 成 与 pylab 模 式 


导致 |Python 广 泛 应 用 于 科学 计算 领域 的 部 分 原因 是 它 能 跟 matplotlib 这 样 的 库 以 及 其 他 GUI 工 
具 集 默契 配合 。 即 使 你 从 未 使 用 过 matplotlib 也 不 用 担心 ， 本 书 稍 后 会 对 其 进行 详细 讲解 。 如 
果 在 标准 ByN6i shell 中 创建 一 个 matplotlib 绘 图 窗口 ， 你 就 会 郁闷 地 发 现 ，GUI 的 事件 循环 会 
接管 Python 会 话 的 控制 权 ， 直 到 该 绘图 窗口 关闭 为 止 。 这 自然 无 法 实现 交互 式 的 数据 分 析 和 
可 视 化 ， 因 此 IPython 对 各 个 GUI 框架 进行 了 专门 的 处 理 以 使 其 能 够 跟 shel 配 合 得 天 衣 无 缝 。 


通常 ， 我 们 通过 在 启动 IPython 时 加 上 --pylab (注意 是 两 个 短 划 线 ) 标记 来 集成 matplotlib ( 见 
图 3-3) 。 


$ ipython --pylab 
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利用 Python 进行 数据 分 析 


图 3-2 : IPython 的 Qt 控制 台 


这 样 会 导致 几 个 结果 。 第 一 ，IPython 会 自用 默认 GUI 后 台 集 成 ， 这 样 matplotlib 绘 图 窗口 的 创 
建 就 没 问题 了 。 第 二 ，NumPy 和 matplotlib 的 大 部 分 功能 会 被 引入 到 最 顶层 的 interactive 命 名 

空间 以 产生 一 个 交互 式 的 计算 环境 (就 像 MATLAB 和 其 他 领域 特定 型 科学 计算 环境 那样 ) 。 也 
可 以 通过 %gui 对 此 进行 手工 设置 (详情 请 执行 %gui?) 。 


译注 5 
: 也 有 译作 内 视 、 自 省 的 ， 不 过 更 多 译作 内 省 。 
译注 6 


: 注意 文件 的 路 径 ， 这 里 实际 上 用 的 是 默认 路 径 。 简 单一 点 的 办 法 就 是 直接 写 绝对 路 径 ， 肯 
定 不 出 错 。 


译注 7 

: 该 命名 空间 的 名 字 就 是 interactive。 

译注 8 

: Windows 中 此 法 行 不 通 ， 需 要 用 右键 菜单 中 的 粘贴 功能 ， 否 则 仅 显 示 第 一 行 。 
译注 9 

: 注意 ， 这 里 说 的 是 “一 切 ”。 

译注 10 

: 注意 ， 由 于 是 立即 整体 执行 ， 所 以 不 要 复制 %paste。 没 事 干 的 话 倒是 可 以 试 试 。 
译注 11 

: 建议 始终 用 这 个 ， 虽 然 稍微 麻烦 一 点 ， 但 是 出 错 的 可 能 性 小 很 多 。 
使 用 命令 历史 


IPython 维 折 着 一 个 位 于 硬盘 上 的 小 型 数据 库 ， 其 中 含有 你 执行 过 的 每 条 命 命 的 文本 。 这 样 做 
有 几 个 目的 : 


:只 需 很 少 的 按键 次 数 即 可 搜索 、 自 动 完 成 并 执行 之 前 已 经 执行 过 的 命令 。 
.在 会 话 间 持 久 化 命令 历史 。 
.将 输入 /输出 历史 记录 到 日 志文 件 。 


credit 











图 3-3 : pylab 模 式 : IPython 和 matplotlib 窗 口 
搜索 并 重用 命令 历史 


对 于 许多 人 来 说 ， 能 够 搜索 并 执行 前 面 的 命令 是 非常 有 用 的 功能 。IPython 倡 导 的 是 一 种 迭代 
的 、 交 互 式 的 开发 模式 : 你 可 能 常常 会 发 现 自己 总 是 在 重复 输入 相同 的 命令 〈 比 如 %run 命 兮 
或 其 他 的 代码 片段 ) 。 假 设 你 已 经 执行 了 : 

In[7]: %run first/second/third/data_script.py 

而 在 查看 其 执行 结果 后 (假设 其 已 经 成 功 执行 完毕 ) 发 现 计算 过 程 不 对 。 在 找 出 问题 原因 并 
修改 了 data_script.py 之 后 ， 只 需 输 入 %run 命 令 的 前 几 个 字符 并 按 "Ctrl-P" 键 或 上 箭头 键 即 可 。 
这 样 就 会 搜索 出 命令 历史 中 第 一 个 与 你 输入 的 字符 相 匹 配 的 命令 。 多 次 按 "Ctrl-P" 键 或 上 箭头 
键 就 会 在 命令 历史 中 不 断 搜索 。 如 果 你 错过 了 想 要 的 那 条 命令 也 没关系 ， 你 可 以 按 "Ctrl-N" 键 
或 下 箭头 键 在 命令 历史 中 前 向 搜索 。 只 要 多 操作 几 次 ， 以 后 你 会 想 都 不 想 地 按 下 这 些 键 ! 
"Ctrl-R" 用 于 实现 部 分 增 量 搜索 ， 跟 UNIX 型 shell 中 的 readline 所 提供 的 功能 一 样 。 在 Windows 
上 ，IPython 模 拟 了 readline 功 能 。 按 下 "Ctrl-R" 并 输入 你 想 搜索 的 行 中 的 几 个 字符 : 


In [1]: a_command = foo(x, y z)(reverse-i-search) com': a_command = foo(x, y, Z) 
按 下 "Ctrl-R" 将 会 循环 搜索 命令 历史 中 每 一 条 与 输入 相符 的 行 。 
输入 和 输出 变量 


忘记 把 画 数 结 果 赋 值 给 变量 是 一 件 让 人 很 郁闷 的 事情 。 好 在 IPython 会 将 输入 〈 你 输入 的 那些 
文本 ) 和 输出 (返回 的 对 象 ) 的 引用 保存 在 一 些 特殊 变量 中 。 最 近 的 两 个 输出 结果 分 别 保存 
在 (一 个 下 划 线 ) 和 _ (两 个 下 划 线 ) 变量 中 : 


In [556]: 2 ** 27Out[556]: 134217728In [557]: _Out[557]: 134217728 


输入 的 文本 被 保存 在 名 为 _iX 的 变量 中 ， 其 中 X 是 输入 行 的 行 号 。 每 个 输入 变量 都 有 一 个 对 应 
的 输出 变量 X。 比 如 说 ， 在 输入 完 第 27 行 后 ， 就 会 产生 两 个 新 变量 27 (输出 变量 ) 和 
_i27 (输入 变量 ) 。 


In [26]: foo = "barln [27]: foo Out[27]: 'bar'In [28]: _i27Out[28]: u'foo'In [29]: _27Out[29]: 'bar' 
由 于 输入 变量 是 字符 串 ， 因 此 可 以 用 Python 的 exec 关 键 字 重 新 执行 : 

In [30]: exec _i27 

有 几 个 魔术 命令 可 用 于 控制 输入 和 输出 历史 。%hist 用 于 打印 全 部 或 部 分 输入 历史 ， 可 以 选择 
是 否 带 行 号 。%reset 用 于 清空 interactive 命 名 空间 ， 并 可 选择 是 否 清空 输入 和 输出 缓存 。 
%xdel 用 于 从 IPython 系 统 中 移 除 特定 对 象 的 一 切 引 用 。 详 细 信息 请 参考 相应 魔术 命令 的 文 
档 。 

警告 : 在 处 理 非常 大 的 数据 集 时 ， 一 定 要 注意 |Python 的 输入 输出 历史 ， 它 会 导致 所 有 对 和 象 引 
用 都 无 法 被 垃圾 收集 器 处 理 ( 即 释放 内 存 ) ， 即 使 用 del 关 键 字 将 变量 从 interactive 命 名 空间 中 
删除 也 不 行 。 对 于 这 种 情况 ， 着 愤 地 使 用 %xdel 和 %reset 将 有 助 于 避免 出 现 内 存 方面 的 问题 。 
记录 输入 和 输出 

IPython 能 够 记录 整个 控制 台 会 话 ， 包 括 输入 和 输出 。 执 行 %logstart 即 可 开始 记录 日 志 : 


In [3]: %logstartActivating auto-logging. Current session state plus future input 
saved.Filename : ipython_log.pyMode : rotateOutput logging : FalseRaw input log : 
FalseTimestamping : FalseState : active 


IPython 的 日 志 功能 可 以 在 任何 时 刻 开 启 ， 它 将 记录 你 的 整个 会 话 〈 包 括 此 前 的 命令 ) 。 
此 ， 如 果 你 在 写 代 码 的 过 程 中 ， 突 然 想 要 保存 所 有 工作 的 时 候 ， 直 接 咎 动 日 志 功 能 就 行 了 。 
%logstart 的 具体 选项 (上 比如 修改 输出 文件 路 径 ) 请 参考 其 文档 ， 此 外 还 可 以 看 看 几 个 与 之 配 
套 的 魔术 命令 %logoff、%logon、%logstate 以 及 %logstop。 


与 操作 系统 交互 


IPython 的 另 一 个 重要 特点 就 是 它 跟 操作 系统 shell 结 合 得 非常 紧密 。 也 就 是 说 ， 你 可 以 直接 在 
IPython 中 实现 标准 的 Windows 或 UNIX (Linux、OS X) 命令 行 活动 。 比 如 执行 shell 命 令 、 更 
改 目 录 、 将 命令 的 执行 结果 保存 在 Python 对 象 《列表 或 字符 串 ) 中 等 。 此 外 ， 它 还 提供 了 
shell 命 令 别 名 以 及 目录 书签 等 功能 。 


表 3-3 总 结 了 用 于 调用 shell 命 令 的 魔术 命令 及 其 语法 。 我 将 在 后 面 几 节 中 简要 介绍 这 些 功 能 。 


表 3-3: 跟 系统 相关 的 1Python 魔 术 命令 


命令 说 明 

lcmd 在 系统 shell 中 执行 cmd 

output = !cmd args 执行 cmd， 并 将 stdout 存 放 在 output 中 
%alias alias_name cmd 为 系统 shell 命 令 定 义 别 名 

%bookmark 使 用 IPython 的 目录 书签 系统 

9%cd directory 将 系统 工作 目录 更 改 为 directory 
9%pwd 返回 系统 的 当前 工作 目录 

9%pushd directory 将 当前 目录 入 栈 ， 并 转向 目标 目录 
9%popd 弹出 栈 顶 目录 ， 并 转向 该 目录 

9%dirs 返回 一 个 含有 当前 目录 栈 的 列表 


表 3-3: 跟 系 统 相 关 的 IPython 魔 术 命 令 ( 续 ) 


命令 说 明 
9%dhist 打印 目录 访问 历史 
9%env 以 dict 形 式 返 回 系统 环境 变量 


shell 命 令 和 别名 


在 IPython 中 ， 以 感叹 号 (!) 开头 的 命令 行 表示 其 后 的 所 有 内 容 需 要 在 系统 shell 中 执行 。 也 就 
是 说 ， 你 可 以 删除 文件 (根据 OS 的 不 同 ， 使 用 rm 或 del) 、 修 改 目录 或 执行 任意 其 他 义理 过 
程 。 甚 至 还 可 以 启动 一 些 能 将 控制 权 从 IPython 手 中 夺 走 的 进程 (比如 另外 再 启动 一 个 Python 
解释 器 ) 


In [2]: !pythonPython 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17:51)[GCC 4.1.2 
20080704 (Red Hat 4.1.2-44)] on linux2Type "packages", "demo" or "enthought" for more 
information.>>> 


此 外 ， 还 可 以 将 shell 命 令 的 控制 台 输 出 存放 到 变量 中 ， 只 需 将 ! 开头 的 表达 式 赋值 给 变量 即 
可 。 例 如 ， 我 的 Linux 电 脑 通 ee 到 互联 网 ， 于 是 可 以 将 我 的 IP 地 址 存 到 一 个 Python 
变量 中 去 : 译注 13 


In [1]: ip_info = !ifconfig eth0 | grep "inet"In [2]: ip_info[0].strip()Out[2]: inet 
addr:192.168.1.137 Bcast:192.168.1.255 Mask:255.255.255.0' 


返回 的 Python 对 象 ip_info 实 际 上 是 一 个 含有 控制 台 输 出 结果 的 自 定义 列表 类 型 。 


三代 用 ! 时 ，IPython 还 允许 使 用 当前 环境 中 定义 的 Python 值 。 只 需 在 变量 名 前 面 加 上 美元 符 
号 ($) 即 可 : 译注 14 


In [3]: foo = 'test*In [4]: Us $footest4.py test.py test.xml 


魔术 命令 %alias 可 以 为 shell 命 令 自 定义 简称 。 例 如 : 


In [1]: %alias || ls -lin [2]: ll /usrtotal 332drwxr-xr-x 2 root root 69632 2012-01-29 20:36 
bin/drwxr-xr-x 2 root root 4096 2010-08-23 12:05 games/drwxr-xr-x 123 root root 20480 
2011-12-26 18:08 include/drwxr-xr-x 265 root root 126976 2012-01-29 20:36 lib/drwxr-xr-x 
44 root root 69632 2011-12-26 18:08 lib32/Irwxrwxrwx 1 root root 3 2010-08-23 16:02 lib64 - 
> lib/drwxr-xr-x 15 root root 4096 2011-10-13 19:03 local/drwxr-xr-x 2 root root 12288 2012- 
01-12 09:32 sbin/drwxr-xr-x 387 root root 12288 2011-11-04 22:53 share/drwxrwsr-x 24 root 
src 4096 2011-07-17 18:38 src/ 


可 以 一 次 执行 多 条 命令 ， 只 需 将 它们 写 在 一 行 上 并 以 分 号 隔 开 即 可 : 


In [558]: %alias test alias (cd ch08; ls; cd ..)In [559]: test_ aliasmacrodata.csv spx.csv 
tips.csv 


注意 ，IPython 会 在 会 话 结束 时 立即 "忘记 "你 所 定义 的 一 切 别 名 。 为 了 创建 永久 性 的 别名 ， 你 
需要 使 用 配置 系统 。 本 章 稍 后 会 对 此 进行 介绍 。 


目录 书签 系统 


IPython 有 一 个 简单 的 目录 书签 系统 ， 它 使 你 能 保存 常用 目录 的 别名 以 便 实现 快速 跳 转 。 比 如 
说 ， 作 为 一 名 狂热 的 Dropbox 用 户 ， 为 了 能 够 快速 地 转 到 我 的 Dropbox 目 录 ， 我 可 以 定义 一 个 
书签 : 


In [6]: %bookmark db /home/wesm/Dropbox/ 
在 定义 好 书签 之 后 ， 就 可 以 在 执行 魔术 命令 %cd 时 使 用 这 些 书签 了 : 
In [7]: cd db(bookmark:db) -> /home/wesm/Dropbox//home/wesm/Dropbox 


如 果 书 签名 与 当前 工作 目录 中 的 某 个 目录 名 冲突 ， 可 以 通过 -b 标 记 (其 作用 是 履 写 ) 使 用 书签 
目录 。%bookmark 的 -| 选项 的 作用 是 列 出 所 有 书签 : 


In [8]: %bookmark -ICurrent bookmarks:db -> /home/wesm/Dropbox/ 
书签 跟 别 名 的 区 别 在 于 ， 它 们 会 被 自动 持久 化 。 
译注 13 


: 之 前 已 经 说 过 ， 作 者 用 的 不 是 Windows 操 作 系 统 ， 所 以 这 个 命令 自然 无 法 执行 。Windows 
上 可 以 用 ipconfig， 但 毕竟 不 是 一 样 东西 ， 这 里 的 代码 自己 能 看 明白 即 可 。 


译注 14 
: 在 Windows 中 ， 将 ls 换 成 dir。 


软件 开发 工具 


IPython 不 仅 是 一 种 舒适 的 交互 式 计算 和 数据 分 析 环 境 ， 同 时 也 非常 适合 成 为 一 种 软件 开发 环 
境 。 在 数据 分 析 应 用 程序 中 ， 最 重要 的 事情 就 是 拥有 正确 的 代码 。 幸 运 的 是 ，IPython 紧 密集 
成 并 加 强 了 Python 内 置 的 pdb 调试 器 。 此 外 ， 你 还 希望 代码 运行 能 足够 快 。 为 此 ，IPython 提 
供 了 一 些 简单 易 用 的 代码 运行 时 间 及 性 能 分 析 工 具 。 下 面 ， 我 特 对 这 些 工 具 做 一 个 详细 介 


绍 。 


交互 式 调 试 器 


IPython 的 调试 器 增强 了 pdb， 如 Tab 键 自动 完成 、 语 法 高 亮 、 为 异常 跟踪 的 每 条 信息 添加 上 下 
文 参 考 等 。 调 试 代 码 的 最 佳 时 机 之 一 就 是 错误 刚刚 发 生 那 会 儿 。%debug 命 合 (在 发 生 异 常 之 
后 马上 输入 ) 将 会 调用 那个 “事后 ?调试 器 ， 并 直接 跳 转 到 引发 异常 的 那个 栈 帧 (stack 
frame) 


In [2]: run ch03/ipython_bug.py------------------------------------------- 
AssertionError Traceback (most recent call 

last)/home/wesm/book _scripts/ch03/ipython_ bug.py in <module>() 13 
throws_an_exception() 14---> 15 
calling_things()/home/wesm/book_scripts/ch03/ipython_bug.py in calling_things() 11 def 
calling_things(): 12 works _ fine()---> 13 throws_an_exception() 14 15 
calling_things()/home/wesm/book_scripts/chO3/ipython_bug.py in throws_an_exception() 7 a 
=58b=6----> 9assert(a+b == 10) 10 11 def calling_things():AssertionError:In [3]: 
%debug> /home/wesm/book _scripts/ch03/ipython_bug.py(9)throws_an_exception() 8 b = 6-- 
--> 9 assert(a + b == 10) 10ipdb> 


在 这 个 调试 器 中 ， 你 可 以 执行 任意 Python 代码 并 查看 各 个 栈 帧 中 的 一 切 对 象 和 数据 (也 就 是 
解释 器 还 “ 留 了 条 生路 "的 那些 ) 。 上 默认 是 从 最 低级 开始 的 ( 即 错误 发 生 的 地 方 ) 。 输 入 u (或 
up) 和 d (或 down) 即 可 在 栈 跟踪 的 各 级 别 之 间 切 换 : 


ipdb> u> /home/wesm/book_scripts/ch0O3/ipython_bug.py(13)calling_things() 12 
works_fine()---> 13 throws_an_exception() 14 


执行 %pdb 命 命 可 以 让 IPython 在 出 现 异常 之 后 自动 调用 调试 器 。 很 多 人 都 认为 这 是 一 个 非常 
实用 的 功能 。 


此 外 ， 调 试 器 还 可 以 为 代码 开发 工作 提供 帮助 ， 尤 其 是 当 你 想 要 设置 断 点 或 对 函数 /脚本 进行 
单 步调 试 以 查看 各 条 语句 的 执行 情况 时 。 实 现 这 个 目的 的 方式 有 几 个 。 第 一 ， 使 用 带 有 -d 选 项 
的 %run 命 合 ， 这 将 会 在 执行 脚本 文件 中 的 代码 之 前 先 打 开 调 试 器 。 必 须 立 即 输 入 s (或 step) 
才能 进入 脚本 : 译注 15 


In [5]: run -d chO3/ipython_bug.pyBreakpoint 1 at 

/home/wesm/book scripts/ch03/ipython_bug.py:1NOTE: Enter 'c' at the ipdb> prompt to 
start your script.> <string>(1)<module>()ipdb> s> gi\ipython_bug.py(1)<module>()1---> 1 def 
works fine():2a=53b=6 


在 此 之 后 ， 该 文件 接 下 来 的 执行 方式 就 全 凭 你 一 句 话 了 。 上 比如 说 ， 在 上 面 那 个 异常 中 ， 我 们 
可 以 在 调用 works_fine 方 法 的 地 方 设置 一 个 断 点 ， 然 后 输入 c (或 continue) 使 脚本 一 直 运 行 
下 去 直到 该 断 点 时 为 止 : 


ipdb> b 12ipdb> c> /home/wesm/book _scripts/ch03/ipython_bug.py(12)calling_things() 11 
def calling_things():2--> 12 works _ fine() 13 throws_an_exception() 


这 时 可 以 单 步 进入 worksfine() 或 执行 worksfine() (输入 n (或 next) 直接 执行 到 下 一 行 /译注 16] 
(#809468440711498-Yi Zhu_16 Ye Jiu_Shi_step_oven)) 


ipdb> n> /home/wesm/book _scripts/ch03/ipython_bug.py(13)calling_things()2 12 
works_fine()---> 13 throws_an_exception() 14 


然后 ， 我 们 单 步 进 入 throws_an_exception 并 前 进 到 发 生 错 误 的 那 一 行 ， 查 看 在 此 范围 内 的 变 
量 。 注 意 ， 调 试 器 命令 的 优先 级 高 于 变量 名 。 这 时 在 变量 前 面 加 上 感叹 号 〈!1 ) 即 可 查看 其 
内 容 。 


ipdb> s--Call--> /home/wesm/book_scripts/ch03/ipython _bug.py(6)throws_an_exception() 5- 
---> 6 def throws_an_exception(): 7 a = Sipdb> n> 

/home/wesm/book _scripts/ch03/ipython_bug.py(7)throws_an_exception() 6 def 

throws_an exception():---->7a=58b=6ipdb>n> 

/home/wesm/book_ scripts/chO03/ipython_bug.py(8)throws_an exception()7 a = 5---->8b= 
6 9 assert(a + b == 10)ipdb> n> 
/home/wesm/book_scripts/chO03/ipython_bug.py(9)throws_an exception() 8 b = 6----> 9 
assert(a + b == 10) 10ipdb> laSipdb> !b6 

要 想 精通 这 个 交互 式 调 试 器 ， 必 须 经 过 大 量 的 实践 寺 行 。 表 3-4 列 出 了 该 调试 器 的 全 部 命令 。 
如 果 你 习惯 了 使 用 某 款 IDE， 刚 开始 用 这 种 终端 型 调试 器 的 时 候 可 能 会 觉得 有 点 麻烦 ， 但 慢 慢 
就 会 习惯 了 。 虽 然 大 部 分 Python IDE 都 拥有 优秀 的 GUI 调试 器 ， 但 是 在 IPython 中 调试 程序 却 
往往 会 带 来 更 高 的 生产 率 。 


表 3-4: ()Python 调 试 器 命令 


命令 功能 

hlelp) 显示 命令 列表 

help command 显示 command 的 文档 
c(ontinue) 恢复 程序 的 执行 


表 3-4: (Python 调试 器 命令 ( 续 ) 


命令 

q(uit) 

btreak) mnper 

b path/to/file py:number 
s(tep) 

nfext) 

u{p)/d(own) 


alrgs) 


功能 

退出 调试 器 ， 不 再 执行 任何 代码 

在 当前 文件 的 第 rumpber 行 设置 一 个 断 点 
指定 文件 的 第 umpber 行 设置 一 个 断 点 

单 步 进入 函数 调用 

执行 当前 行 ， 并 前 进 到 当前 级 别 的 下 一 行 

在 函数 调用 栈 中 向 上 或 向 下 移动 


显示 当前 函数 的 参数 


在 新 的 (递归) 调试 器 中 调用 语句 statrement 
显示 当前 行 ， 以 及 当前 栈 级 别 上 的 上 下 文 参考 代码 
打印 当前 位 置 的 完整 栈 跟 踪 (包括 上 下 文 参考 代码 ) 


debug statrement 
I(ist) siatement 


wlhere) 
调试 器 的 其 他 使 用 场景 


除 上 面 提 到 的 之 外 ， 还 有 另外 几 种 调用 调试 器 的 手段 。 第 一 ， 使 用 settrace 这 个 特别 的 函数 
(以 pdb.settrace 命 名 ) ， 这 差不多 可 以 算 作 一 种 “穷人 的 断 点 [译注 17](#809468440711498- 
YiZhu_17_Zuo_ Zhe Zai Zhe Li De Y Si Shi Zhe Zhong Duan Dian_Bi Jiao_Sui Bian 
__Shi_Ying_Bian_Ma_De》。 下 面 这 两 个 方法 可 能 会 在 你 的 日 常 工作 中 派 上 用 场 ( 你 也 可 以 
像 我 一 样 直 接 将 其 添加 到 IPython 配 置 中 ) 


def set trace(): from IPython.core.debugger import Pdb 

Pdb(color scheme='Linux').set trace(sys. getframe().f_back)def debug(f, args, *“*kwargs): 
from IPython.core.debugger import Pdb pdb = Pdb(color_scheme='Linux') return 
pdb.runcall(t, args, “*kwargs) 


第 一 个 函数 (set_trace) 非常 简单 。 你 可 以 将 其 放 在 代码 中 任何 希望 停 下 来 查看 一 番 的 地 方 
(比如 发 生 异 常 的 地 方 ) 


In [7]: run chO3/ipython_bug.py> 
/home/wesm/book _scripts/ch03/ipython_bug.py(16)calling_things() 15 set trace()---> 16 
throws_an_exception() 17 


按 下 c (或 continue) 仍然 会 使 代码 恢复 执行 ， 不 受 任何 影响 。 
另外 那个 debug 男 数 使 你 能 够 直接 在 任意 函数 上 使 用 调试 器 。 假 设 我 们 写 了 如 下 辑 数 : 
def f(x, y, z=1): tmp = x + y return tmp /Zz 


现在 想 对 其 进行 单 步调 试 。f 的 正常 使 用 方式 应 该 类 似 于 f(1,2,z=3) 这 个 样子 。 为 了 能 够 单 步 进 
入 f， 将 f 作 为 第 一 个 参数 传 给 debug， 后 面 按 顺序 再 跟 上 各 个 需要 传 给 {的 关键 字 参 数 : 


In [6]: debug(f, 1, 2, z=3)> (2)f() 1 def f(x, y, Zz):----> 2 tmp = x + y 3 return tmp / zipdb> 


我 发 现 这 两 个 图 数 虽 然 简单 ， 但 是 在 日 常 工作 当中 却 节 省 了 我 不 少 的 时 间 。 


此 外 ， 这 个 调试 器 还 可 以 结合 %run 使 用 。 通 过 %run-d 执 行 脚 本 ， 你 将 会 直接 进入 调试 器 ， 然 
后 可 以 设置 一 些 断 点 并 启动 脚本 : 


In [1]: %run -d ch03/ipython_bug.pyBreakpoint 1 at 

/home/wesm/book scripts/ch03/ipython_bug.py:1NOTE: Enter 'c' at the ipdb> prompt to 
start your script.> <string>(1)<module>()ipdb> 

如 果 再 加 上 -b 和 一 个 行 号 ， 则 调试 器 在 启动 时 就 会 自动 设置 一 个 断 点 : 


In [2]: %run -d -b2 ch03/ipython_bug.pyBreakpoint 1 at 

/home/wesm/book scripts/ch03/ipython_bug.py:2NOTE: Enter 'c' at the ipdb> prompt to 
start your script.> <string>(1)<module>()ipdb> c> 
/home/wesm/book_scripts/ch0O3/ipython_bug.py(2)works_fine() 1 def works fine():1---> 2a = 
53b= 6ipdb> 


测试 代码 的 执行 时 间 : %time 和 %timeit 


对 于 规模 更 大 、 运 行 时 间 更 长 的 数据 分 析 应 用 程序 ， 你 可 能 会 希望 测试 一 下 各 个 部 分 或 函数 
调用 或 语句 的 执行 时 间 。 你 可 能 会 希望 了 解 某 个 复杂 计算 过 程 中 到 底 是 哪些 函数 占用 的 时 间 

最 多 。 幸 运 的 是 ， 在 开发 和 测试 代码 的 过 程 中 ，IPython 能 够 让 你 轻松 得 到 这 些 信 息 。 使 用 内 
置 的 time 模 块 及 其 time.clock 和 time.time 函 数 手工 测试 代码 执行 时 间 是 一 件 合 人 烦 问 的 事情 ， 

因为 你 必须 编写 许多 一 模 一 样 的 了 无 生 趣 的 公式 化 代码 : 


import timestart = time.time()for i in range(iterations): # 这 里 放 一 些 待 执行 的 代码 
elapsed_per = (time.time() - start) /iterations 


由 于 这 是 一 个 非常 常用 的 功能 ， 所 以 IPython 专 门 提供 了 两 个 魔术 画 数 (%time 和 %timeit) 以 
便 自 动 完成 该 过 程 。%time 一 次 执行 一 条 语句 ， 然 后 报告 总 体 执行 时 间 。 假 设 我 们 有 一 大 堆 字 
符 串 ， 希 望 对 几 个 “能 够 选 出 具有 特殊 前 级 的 字符 串 " 的 函数 进行 比较 。 下 面 是 一 个 拥有 60 万 字 
符 串 的 数组 ， 以 及 两 个 不 同 的 "能够 选 出 其 中 以 foo 开 头 的 字符 串 ” 的 方法 : 


一 个 非常 大 的 字符 串 数 组 strings = [foo'"， 
foobar ，baz ，qux ，python'`，Guido Van 
Rossum']- 100000method1 = [x for x in 
strings if Xx.startswith(foo')]method2 = [x 
for x in strings if x[:3] == ‘foo'] 


看 上 去 它们 的 性 能 表现 应 该 差不多 ， 对 吧 ?我 们 通过 %time 来 确认 一 下 : 


In [561]: %time method1 = [x for x in strings if x.startswith(foo)]CPU times: user 0.19 s, sys: 
0.00 s, total: 0.19 sWall time: 0.19 sln [562]: %time method2 = [x for x in strings if x[:3] == 
'foo'"]CPU times: user 0.09 s, sys: 0.00 s, total: 0.09 sWall time: 0.09 s 


墙 上 时 间 (Wall time) 是 我 们 最 感 兴趣 的 数字 。 所 以 ， 看 上 去 第 一 个 方法 耗费 了 两 倍 以 上 的 
时 间 ， 但 这 并 不 是 一 个 非常 精确 的 结果 。 如 果 你 对 相同 语句 多 次 执行 %time 的 话 ， 就 会 发 现 其 
结果 是 会 变 的 。 为 了 得 到 更 为 精确 的 结果 ， 需 要 使 用 魔术 落 数 %timeit。 对 于 任意 语句 ， 它 会 
自动 多 次 执行 以 产生 一 个 非常 精确 的 平均 执行 时 间 。 


In [563]: %timeit [x for x in strings if x.startswith(foo')]10 loops, best of 3: 159 ms per loopln 
[564]: %timeit [x for x in strings if x[:3] == 'foo']10 loops, best of 3: 59.3 ms per loop 


这 个 貌似 平淡 无 奇 的 例子 正好 说 明了 一 个 事实 : 我 们 非常 有 必要 了 解 Python 标 准 库 、 
NumPy、pandas 以 及 本 书 中 所 用 到 的 其 他 库 的 性 能 特点 。 在 大 型 数据 分 析 应 用 程序 中 ， 这 些 
不 起 眼 的 窗 秒 数 是 会 不 断 累 积 的 ! 


对 于 那些 执行 时 间 非 常 短 (其 至 是 那些 微 秒 (1e-6 秒 ) 或 纳 秒 (1e-9 秒 ) 级 的 ) 的 分 析 语 名 
和 六 数 而 言 ，%timeit 是 非常 有 用 的 。 虽 然 这 些 时 间 值 小 到 几乎 可 以 忽略 不 计 ， 但 同 祥 执行 
100 万 次 一 个 20 微 秒 的 函数 ， 所 用 的 时 间 要 上 比 一 个 5 微 秒 的 多 15 秒 。 在 上 面 那个 例子 中 ， 我 们 
可 以 直接 对 那 两 个 字符 串 运算 进行 比较 以 了 解 其 性 能 特点 : 


In [565]: x = foobarln [566]: y = foo'ln [567]: %timeit x.startswith(y)1000000 loops, best of 3: 
267 ns per loopln [568]: %timeit x[:3] == y10000000 loops, best of 3: 147 ns per loop 


基本 性 能 分 析 : %prun 和 %run -p 


代码 的 性 能 分 析 跟 代码 执行 时 间 密 切 相 关 ， 只 不 过 它 关注 的 是 耗费 时 间 的 位 置 。 主 要 的 
Python 性 能 分 析 工 具 是 cProfile 模 块 ， 它 不 是 专 为 IPython 设 计 的 。cProfile 在 执行 一 个 程序 或 
代码 块 时 ， 会 记录 各 丁 数 所 耗费 的 时 间 。 


cProfile 一 般 是 在 命令 行 上 使 用 的 ， 它 将 执行 整个 程序 然后 输出 各 本 数 的 执行 时 间 。 假 设 我 们 
有 一 个 简单 的 脚本 : 在 一 个 循环 中 执行 一 些 线性 代数 计算 〈 计 算 一 个 100x100 的 矩阵 的 最 大 本 
征 值 绝对 值 ) 。 


import numpy as npfrom numpy.linalg import eigvalsdef runexperiment(niter=7100): K = 700 
results = [] for in xrangel(niter): mat = np.random.randn(K, K) max_eigenvalue = 
np.abs(eigvals(mat)).max() results.append(max_eigenvalue) return resultssome results = 
run_experiment()print 'Largest one we saw: %s' % np.max(Some _results) 


如 果 你 还 不 懂 NumPy， 暂 时 先 别管 ， 后 面 会 讲 的 。 在 命 合 行 中 输入 下 列 命 合 即 可 通过 cProfile 
启动 该 脚本 : 





python -m cProfile cprof example.py 


执行 之 后 ， 你 会 发 现 输出 结果 是 按 画 数 名 排序 的 。 这 让 我 们 很 难 发 现 哪里 才 是 最 花 时间 的 地 
方 ， 因 此 通常 都 会 再 用 -s 标 记 指定 一 个 排序 规则 : 


$ python -m cProfile -s cumulative cprofexample.pyLargest one we saw: 11.923204422 
15176 function calls (14927 primitive calls) in 0.720 secondsOrdered by: cumulative 
timencalls tottime percall cumtime percall filename:lineno(function)1 0.001 0.007 0.721 
0.721 cprofexample.py:1(<module>)100 0.003 0.000 0.586 0.006 linalg.py:702(eigvals)200 
0.572 0.003 0.572 0.003 {numpy .linalg.lapacklite. dgeev}1 0.002 0.002 0.075 0.075 
init.py:106(<module>)100 0.059 0.001 0.059 0.001 {method ‘randn')1 0.000 0.000 0.044 
0.044 addnewdocs.py:9(<module>)2 0.001 0.001 0.037 0.0179 init.py:1(<module>)2 0.003 
0.002 0.030 0.015 init.py:2(<module>)1 0.000 0.000 0.030 0.030 
typecheck.py:3(<module>)1 0.001 0.001 0.021 0.021 _init.py:15(<module>)1 0.013 0.013 
0.013 0.013 numeric.py:1(<module>)1 0.000 0.000 0.009 0.009 __init.py:6(<module>)1 
0.001 0.00171 0.008 0.008 __init.py:45(<module>)262 0.005 0.000 0.007 0.000 
function_base.py:3178(add newdoc)100 0.003 0.000 0.005 0.000 
linalg.py:162(_assertFinite)... 


这 里 只 给 出 了 输出 结果 中 的 前 15 行 。 只 需 查看 cumtime 列 即 可 发 现 各 辑 数 所 耗费 的 总 时 间 。 注 
意 ， 如 果 一 个 函数 调用 了 别 的 函数 ， 计 时 器 是 不 会 停 下 来 重新 计时 的 。cProfile 记 录 的 是 各 函 
数 调用 的 起 始 和 结束 时 间 ， 并 依 此 计算 总 时 间 。 


除 命令 行 用 法 之 外 ，cProfile 还 可 以 编程 的 方式 分 析 任 意 代码 块 的 性 能 。IPython 为 此 提供 了 一 
个 方便 的 接口 ， 即 %prun 命 伟 和 带 -p 选 项 的 %run。%prun 的 格式 跟 cProfile 差 不 多 ， 但 它 分 析 
的 是 Python 语句 而 不 是 整个 .py 文件 : 


In [4]: %prun -17 -s cumulative run_experiment() 4203 function calls in 0.643 
secondsOrdered by: cumulative timeList reduced from 32 to 7 due to restriction <7>ncalls 
tottime percall cumtime percall filename:lineno(function) 1 0.000 0.000 0.643 0.643 
<string>:1(<module>) 1 0.001 0.001 0.643 0.643 cprof_example.py:4(run_experiment) 100 
0.003 0.000 0.583 0.006 linalg.py:702(eigvals) 200 0.569 0.003 0.569 0.003 
{Nnumpy.linalg.lapack_lite.dgeev} 100 0.058 0.001 0.058 0.001 {method 'randn'} 100 0.003 
0.000 0.005 0.000 linalg.py:162(_assertFinite) 200 0.002 0.000 0.002 0.000 {method 'all' of 
'numpy.ndarray' objects} 


执行 %run -p -s cumulative cprof _ example.py 也 能 达到 上 面 那 条 系统 命令 行 命令 一 样 的 效果 ， 
但 是 却 无 需 退 出 IPython。 


逐 行 分 析 男 数 性 能 


有 些 时 候 ， 从 %prun (或 其 他 基于 cProfile 的 性 能 分 析 手 段 ) 得 到 的 信息 要 么 不 足以 说 明 男 数 
的 执行 时 间 ， 要 么 就 复杂 到 难以 理解 〈 按 函数 名 聚合 ) 。 对 于 这 种 情况 ， 我 们 可 以 使 用 一 个 
叫做 line_profiler 的 小 型 库 (可 以 通过 PyPI 或 随便 一 种 包 管 理工 具 获 取 ) 。 其 中 有 一 个 新 的 魔 
术 加 数 %|lprun， 它 可 以 对 一 个 或 多 个 函数 进行 逐 行 性 能 分 析 。 你 可 以 修改 IPython 配 置 (参考 
IPython 文 件 或 本 章 稍 后 关于 配置 的 内 容 ) 以 启用 这 个 扩展 ， 代 码 如 下 所 示 : 


A list of dotted module names of IPython 
extensions to 
load.c.TerminallPythonApp.extensions = 
[line_profiler'] 


line_profiler 可 以 通过 编程 的 方式 使 用 (请 参阅 完整 文档 ) ， 但 其 最 强大 的 一 面 却 是 在 IPython 
中 的 交互 式 使 用 。 假 设 你 有 一 个 prof_mod 模 块 ， 其 中 有 一 些 用 于 NumPy 数 组 计算 的 代码 ， 如 
下 所 示 : 


from numpy.random import randndef add_and_ sum(x, y): added =x +y summed = 
added.sum(axis=1) return summeddef call function(): x = randn(1000, 1000) y = 
randn(1000, 1000) return add_and_sum(x, y) 


如 果 我 们 想 了 解 add_and_sum 画 数 的 性 能 ，%prun 会 给 出 如 下 所 示 的 结果 : 


In [569]: %run prof modln [570]: x = randn(3000, 3000)In [571]: y = randn(3000, 3000)In 
[572]: %prun add and sum(x, y) 4 function calls in 0.049 secondsOrdered by: internal 
timencalls tottime percall cumtime percall filename:lineno(function) 1 0.036 0.036 0.046 
0.046 prof_mod.py:3(add and sum) 1 0.009 0.009 0.009 0.009 {method 'Sum' of 
'numpy.ndarray' objects} 1 0.003 0.003 0.049 0.049 <string>:1(<module>) 1 0.000 0.000 
0.000 0.000 {method 'disable' of '_ Isprof.Profiler' objects} 


这 个 结果 并 不 能 说 明 什 么 问题 。 启用 line_profiler 这 个 IPython 扩 展 之 后 ， 就 会 出 现 一 个 新 的 魔 
术 命 令 %lprun。 用 法 上 唯一 的 区 别 就 是 : 必须 为 %lprun 指 明 想 要 测试 哪个 或 哪些 函数 。 
%lprun 的 通用 语法 为 : 


%lprun -ffunc1 -ffunc2 statement to_profile 
在 本 例 中 ， 我 们 想 要 测试 的 是 add_and_sum， 于 是 执行 : 


In [573]: %lprun -fadd and _ sum add and sum(x, y)Timer unit: 1e-06 sFile: 

book _scripts/prof mod.pyFunction: add_and_ sum at line 3Total time: 0.045936 sLine # Hits 
Time Per Hit % Time Line 
Contents============================================================== 
3 def add_and sum(x, y): 4 1 36510 36510.0 79.5 added =x +yS5 19425 9425.0 20.5 
summed = added.sum(axis=1) 6 1 1 1.0 0.0 return summed 


这 个 结果 就 容易 理解 多 了 。 这 里 我 们 测试 的 只 是 add_and_sum 这 一 个 画 数 。 上 面 那 个 模块 中 
还 有 一 个 call_function 郴 数 ， 我 们 可 以 结合 add_and_sum 一 起 测试 ， 于 是 最 终 的 测试 命令 就 成 
了 下 面 这 个 样子 : 


In [574]: %lprun -fadd_and_sum -f call_function call_function()Timer unit: 1e-06 sFile: 
book _scripts/prof mod.pyFunction: add_and_ sum at line 3Total time: 0.005526 sLine # Hits 
Time Per Hit % Time Line 
Contents============================================================== 
3 def add_and_ sum(x, y): 4 1 4375 4375.0 79.2 added =x+y511149 1149.0 20.8 
summed = added.sum(axis=1) 6 1 2 2.0 0.0 return summedFile: 

book _scripts/prof mod.pyFunction: call_function at line 8Total time: 0.121016 sLine # Hits 
Time Per Hit % Time Line 
Contents============================================================== 
8 def call_function(): 9 1 57169 57169.0 47.2 x = randn(1000, 1000) 10 1 58304 58304.0 
48.2 y = randn(1000, 1000) 11 1 5543 5543.0 4.6 return add_ and sum(x, y) 


通常 ， 我 会 用 %prun (cProfile) 做 “宏观 的 ”性 能 分 析 ， 而 用 %lprun (line_profiler) 做 “微观 
的 ”性 能 分 析 。 这 两 个 工具 都 很 有 必要 了 解 一 下 


注意 : 在 使 用 %lprun 时 ， 之 所 以 必须 显 式 指明 待 测 试 的 画 数 名 ， 是 因为 "跟踪 ”每 一 行 代 码 的 
执行 时 间 所 需 的 开销 很 大 。 对 不 感 兴趣 的 画 数 进行 跟踪 将 会 对 性 能 分 析 结 果 造 成 显著 的 影 
响 。 


译注 15 
: 第 一 ，s 不 一 定 行 ， 看 提示 ， 要 用 c ; 第 二 ， 这 个 s 实 际 上 是 step into。 
译注 16 
: 也 就 是 step over。 
译注 17 
: 作者 在 这 里 的 意思 是 这 种 断 点 比较 随便 ， 是 硬 编码 的 。 
IPython HTML Notebook 


2011 年 ， 由 Brian Granger 领 导 的 IPython 团 队 开始 开发 一 种 基于 Web 技 术 的 交互 式 计算 文档 格 
即 IPython Notebook 〈 见 图 3-4) 。 目 前 ， 它 已 经 成 为 一 种 非常 棒 的 交互 式 计算 工具 ， 同 
还 是 科研 和 教学 的 一 种 理想 媒介 。 本 书 中 大 部 分 示例 都 是 用 它 编写 的 .我 强烈 建议 你 也 试 
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图 3-4 : IPython Notebook 


它 有 一 种 基于 JSON 的 文档 格式 .ipynb， 使 你 可 以 轻松 分 享 代码 、 输 出 结果 以 及 图 片 等 内 容 。 
目前 在 各 种 Python 研讨 会 上 ， 一 种 流行 的 演示 手段 就 是 使 用 IPython Notebook， 然 后 再 
将 .ipynb 文 件 发 布 到 网 上 以 供 所 有 人 查阅 。 


IPython Notebook 应 用 程序 是 一 个 运行 于 命 合 行 上 的 轻 量 级 服务 器 进程 。 执 行 下 面 这 条 命 命 
有 即 可 启动 : 


$ ipython notebook --pylab=inline[NotebookApp] Using existing profile dir: 
uhome/wesm/.config/ipython/profile_default’ [NotebookApp] Serving notebooks from 
/home/wesm/book_scripts[NotebookApp] The IPython Notebook is running at: 
http://127.0.0.1:8888/[NotebookApp] Use Control-C to stop this server and shut down all 
kernels. 


在 大 多 数 平台 上 ， 你 的 首选 Web 浏 览 器 会 自动 打开 Notebook 的 仪表 板 (dashboard) 。 有 时 
你 可 能 需要 手工 打开 上 面 列 出 的 那个 URL。 你 可 以 在 这 里 创建 一 个 新 的 记事 本 并 开始 研究 工 
作 。 
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由 于 我 们 是 在 一 个 Web 浏 览 器 中 使 用 Notebook 的 ， 因 此 该 服务 器 进程 可 以 运行 于 任何 地 方 。 
你 甚至 可 以 连接 到 那些 运行 在 云 服 务 (如 Amazon EC2) 上 的 Notebook。 直 到 写作 本 书 时 为 
止 ， 一 个 新 的 名 为 NotebookCloud (http://notebookcloud.appspot.com) 的 项 目 已 经 诞生 了 ， 
它 可 以 轻松 地 在 Amazon EC2 上 詹 动 记事 本 。 


利用 IPython 提 高 代码 开发 效率 的 几 点 提示 


为 了 在 IPython 中 开发 、 调 试 代码 ， 并 充分 发 挥 其 交互 优势 ， 许 多 用 户 都 需要 转换 一 下 工作 模 
式 。 像 编码 风格 以 及 一 些 操作 细节 可 能 需要 做 一 些 调整 。 


就 这 点 来 说 ， 本 节 的 内 容 更 像 是 艺术 而 非 科 学 ， 你 需要 有 一 些 编程 经 验 才 好 判断 其 能 否 提 高 
你 的 工作 效率 。 总 之 ， 你 得 让 你 的 代码 结构 更 易于 交互 且 结 果 更 易于 查看 。 我 发 现 通过 
IPython 设 计 的 软件 要 比 独立 的 命令 行 应 用 程序 好 用 。 当 你 执行 自己 或 别人 在 几 个 月 甚至 几 年 
前 编写 的 代码 时 出 现 了 错误 ， 想 找 出 问题 所 在 时 ，IPython 的 交互 性 就 会 变 得 非常 重要 。 


重新 加 载 模块 依赖 项 


在 Python 中 ， 当 你 输入 import some lib 时 ，some lib 中 的 代码 就 会 被 执行 ， 且 其 中 所 有 的 变 
量 、 函 数 和 引入 项 都 会 被 保存 在 一 个 新 建 的 ome_lib 模 块 命名 空间 中 。 下 次 你 再 输入 import 
some_lib 时 ， 就 会 得 到 这 个 模块 命名 空间 的 一 个 引用 。 而 这 对 于 IPython 的 交互 式 代码 开发 模 
式 就 会 有 一 个 问题 ， 比 如 说 ， 用 %run 执 行 的 某 段 脚本 中 牵扯 到 了 某 个 刚刚 做 了 修改 的 模块 。 
假设 我 们 有 一 个 test_script.py 文 件 ， 其 中 有 下 列 代码 : 


import some libx = 5y = [1, 2, 3, 4]result = some lib.get _ answer(X, y) 


如 果 在 执行 了 %run testscript.py 之 后 又 对 somelib.py 进 行 了 修改 ， 下 次 再 执行 %run 
estscmptpy 时 将 仍然 会 使 用 老 版 的 some/b。 其 原因 就 是 Python 的 熏 次 加 载 炬 块 系统 。 这 个 
行为 不 同 于 其 他 一 些 数据 分 析 环 境 ( 如 MATLAB， 它 会 自动 应 用 代码 修改 / 注 作 
(#809468440711498- 

Zhu_1 You Yu _ Yi Ge Mo Kuai Huo Bao Ke Neng Hui Zai Yi Ge Cheng Xu Zhong_ 
De_Bu_Tong Wei Zhi Duo_Ci Yin Ru_Suo_ Yi PythonHui Za Di Yi_Ci_ Yin_ Ru Zhe X 
ie_Mo_Kuai_Shi)) 。 为 了 解决 这 个 问题 ， 你 有 两 个 办 法 可 用 。 第 一 个 办 法 是 使 用 Python 内 置 
的 reload 函 数 。 将 test_script.py 修 改 成 下 面 这 个 桩 子 : 


import some _libreload(some lib)x = 5y = [1, 2, 3, 4]result = some _lib.get_answer(x, y) 


这 样 就 保证 每 次 执行 test_script.py 时 都 能 用 上 最 新 版 的 some _ lib 了。 显然 ， 当 依赖 变 得 更 强 

时 ， 就 需要 在 很 多 地 方 插入 很 多 的 reload。 对 于 这 个 问题 ，IPython 提 供 了 一 个 特殊 的 dreload 
函数 ( 非 魔术 函数 ) 来 解决 模块 的 "深度 ”( 递 当 ) 重 加 载 。 如 果 执 行 import some _lib 之 后 再 输 
入 dreload(some lib)， 则 它 会 党 试 重新 加 载 some lib 及 其 所 有 的 依赖 项 。 遗 憾 的 是 ， 这 个 办 

法 也 不 是 万 灵 丹 ， 但 是 如 果真 的 不 行 了 ， 重 启 IPython 就 行 了 。 


代码 设计 提示 


这 个 问题 不 太 好 讲 ， 但 我 在 日 常 工作 中 确实 发 现 了 一 些 高 层次 的 原则 。 


保留 有 意义 的 对 象 和 数据 
人 们 一 般 不 会 在 命令 行 上 编写 下 面 这 样 的 程序 : 


from myfunctions import gdef f(x, y): return g(x + y)def main(): x= 6 y= 7.5 result=x+ yif 
name == '_main': main() 


如 果 我 们 在 IPython 中 执行 这 段 代 码 的 话 会 出 现 什 么 问题 ? 我们 在 IPython shell 中 将 访问 不 到 
任何 结果 以 及 main 画 数 中 定义 的 对 象 。 好 点 的 办 法 是 直接 在 该 模块 的 全 局 命名 空间 中 执行 

main 中 的 代码 (如果 你 希望 该 模块 是 可 引入 的 ， 也 可 以 将 这 些 代码 放 在 if name=='main': 块 
中 ) 。 这 样 ， 当 你 %run 这 段 代 码 时 ， 就 能 看 到 main 中 定义 的 所 有 变量 了 。 对 这 个 简单 的 例子 
而 言 ， 这 个 原则 意义 不 大 ， 但 对 本 书后 面 将 要 介绍 的 那些 针对 大 数据 集 的 复杂 数据 分 析 问 题 
而 言 就 很 重要 了 。 


局 平 结构 要 比 艇 套 结 构 好 


深度 佬 套 的 代码 让 我 想到 了 洋葱 。 在 测试 或 调试 画 数 时 ， 你 要 把 这 个 洋葱 剥 多 少 层 才能 找到 
感 兴 趣 的 代码 ? "局 平 结构 要 比 俯 套 结构 好 "的 思想 来 自 "Zen of Python" 译 注 18， 它 对 交互 式 的 
代码 开发 模式 同样 有 效 。 编 写 范 数 和 类 时 应 尽量 注意 低 耦 合 和 模块 化 ， 这 样 可 以 使 它们 更 易 
于 测试 (如 果 你 编写 单 元 测试 的 话 ) 、 调 试 和 交互 式 使 用 。 


无 惧 大 文件 


如 果 便 经 学 过 Java (或 其 他 类 似 的 语言 ) ， 可 能 会 有 人 告诉 你 要 “尽量 保持 文件 的 小 型 化 "。 在 
许多 语言 中 ， 这 都 是 一 个 不 错 的 建议 。 长 度 太 长 通常 是 一 种 不 好 的 “ 臭 代 码 ”， 意 味 着 需要 重 构 
或 重组 。 然 而 在 IPython 中 开发 代码 时 ， 义 理 10 个 小 的 〈 但 互相 关联 的 ) 文件 (比如 都 低 于 

100 行 ) 可 能 会 让 你 更 为 头疼 ， 还 不 如 直接 一 个 大 文件 或 两 三 个 大 点 的 文件 来 得 痛快 。 更 少 的 
文件 意味 着 需要 重新 加 载 的 模块 更 少 ， 编 辑 时 需要 在 各 个 文件 之 间 的 跳 转 次 数 也 更 少 。 我 发 
现 维护 更 大 的 〈 具 有 高 内 聚 度 的) 模块 会 更 实用 也 更 具有 Python 特点 。 在 解决 完 问题 之 后 ， 

有 时 将 大 文件 拆 分 成 小 文件 会 更 好 。 

显然 ， 我 并 不 建议 将 此 原则 极端 化 ， 那 可 能 会 让 你 将 所 有 代码 都 放 到 一 个 巨大 的 文件 里 面 。 

对 一 个 大 型 代码 库 而 言 ， 要 找到 一 种 合乎 逻辑 的 模块 / 包 架 构 需 要 花 点 工夫 ， 但 这 对 团队 工作 
非常 重要 。 每 个 模块 都 应 该 具有 足够 高 的 内 聚 度 ， 而 且 要 能 足够 直观 地 找到 对 应 各 种 功能 眩 

画 数 和 类 。 

注 1 

: 由 于 一 个 模块 或 包 可 能 会 在 一 个 程序 中 的 不 同位 置 多 次 引入 ， 所 以 Python 会 在 第 一 次 引入 
这 些 模 块 时 对 其 进行 缓存 ， 而 不 是 每 次 都 执行 模块 中 的 代码 。 否 则 ， 应 用 程序 的 模块 化 和 和 良 
好 的 代码 组 织 等 手段 就 达 不 到 高 效 的 目的 了 。 

译注 18 


: 这 是 Tim Peters 2004 年 写 的 一 首 “ 诗 "”， 执 行 "mport this" 就 能 看 到 。 有 网 民 将 其 翻译 成 三 字 
经 的 形式 (又 名 “ 蛇 宗 三 字 经 ”) 。 另 外， 有 兴趣 的 话 ， 可 以 看 看 this 的 源 代码 。 


高 级 IPython 功 能 
让 你 的 类 对 IPython 更 加 友好 


IPython 力 求 为 各 种 对 象 呈 现 一 个 友好 的 字符 串 表 示 。 对 于 许多 对 象 (如 字典 、 列 表 和 元 组 
等 ) ， 内 置 的 pprint 模 块 就 能 给 出 漂亮 的 格式 。 但 是 对 于 你 自己 定义 的 那些 类 ， 就 必须 自己 生 
成 所 需 的 字符 串 输 出 。 假 设 我 们 有 下 面 这 个 简单 的 类 : 


class Message: def init(self msg): self.msg = msg 
如 果 像 下 面 这 样 写 ， 你 就 会 失望 地 发 现 这 个 类 的 默认 输出 形式 非常 不 好 看 : 


In [576]: x = Message('l have a secret )In [577]: xoOut[577]: <__main _ .Message instance=” 
at="" Ox60ebbd8=""> 


由 于 IPython 会 获取 repr 方 法 返回 的 字符 串 (具体 办 法 是 output=repr(obj)) ， 并 将 其 显示 到 控 
制 台 上 。 因 此 ， 我 们 可 以 为 上 面 那个 类 添加 一 个 简单 的 repr 方 法 以 得 到 一 个 更 有 意义 的 输出 
形式 : 


class Message: def init(self, msg): self.msg = msg def repr(self): return 'Message: %s' % 
selfmsgln [579]: x = Message!('l have a secret')In [580]: xOut[580]: Message: | have a secret 


个 性 化 和 配置 


IPython shell 在 外 观 ( 如 颜色 、 提 示 符 、 行 间距 等 ) 和 行为 方面 的 大 部 分 内 容 都 是 可 以 进行 配 
置 的 。 下 面 是 能 够 通过 配置 做 的 部 分 事情 : 


修改 颜色 方案 。 
-修改 输入 输出 提示 符 。 
去掉 Out 提 示 符 跟 下 一 个 In 提 示 符 之 间 的 空 行 。 


:执行 任意 Python 语 句 。 这 些 语句 可 以 用 于 引入 所 有 常用 的 东西 ， 还 可 以 做 一 些 你 希望 每 次 启 
动 IPython 都 发 生 的 事情 。 


.启用 IPython 扩 展 ， 如 line_profiler 中 的 魔术 命令 %lprun。 
:定义 你 自己 的 魔术 命令 或 系统 别名 。 


所 有 这 些 配置 选项 都 定义 在 一 个 叫做 ijpython_config.py 的 文件 中 ， 可 以 在 ~/.config/ipythom/ 目 
录 (UNIX) 和 %HOME%/.ipython/ 目 录 (Windows) 中 找到 。 具 体 的 主 目录 取决 于 你 的 系 
统 。 配 置信 息 是 基于 特定 个 性 化 设置 的 。 一 般 来 说 ， 正 常 息 动 |jPython 将 会 加 载 默认 的 个 性 化 
设置 (位 于 profile_default 目 录 中 ) 。 因 此 ， 在 我 的 Linux 系 统 中 ， 默 认 IPython 配 置 文件 的 完 
整 路 径 是 : 


/home/wesm/.config/ipython/profile_default/ipython_config.py 


这 里 我 就 不 对 该 文件 的 内 容 作 详 细 介 绍 了 。 因 为 其 注释 已 经 说 明了 各 个 配置 项 的 功能 ， 各 位 
读者 完全 可 以 自己 照 着 做 。 还 有 一 个 很 实用 的 功能 是 拥有 多 个 个 性 化 设置 。 假 设 你 想 要 专门 
为 某 个 应 用 程序 或 项 目 量 身 定做 一 套 IPython 配 置 。 输 入 下 面 这 样 的 命令 即 可 新 建 一 个 个 性 化 


设置 : 
ipython profile create secret_project 


然后 编辑 新 建 的 这 个 profile_secret_project 目 录 中 的 配置 文件 ， 再 用 下 面 这 种 方式 启动 
IPython : 


$ ipython --profile=secret_projectPython 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 
15:17:51)Type "copyright", "credits" or "license" for more information.IPython 0.13 -- An 
enhanced Interactive Python.? -> Introduction and overview of IPython's features.%quickref 
-> Quick reference.help -> Python's own help system.object? -> Details about 'object', use 
"object?? for extra details.IPython profile: secret_projectln [1]: 


同样 ， 有 关 个 性 化 和 配置 方面 的 详细 信息 ， 请 参考 IPython 的 在 线 文档 。 

致谢 

本 章 的 部 分 内 容 由 IPython Development Team 整 理 。 我 对 他 们 创建 了 如 此 神奇 的 工具 而 感激 
涕 堆 。 

第 4 章 NumPy 基 础 : 数组 和 矢量 计算 


NumPy (Numerical Python 的 简称 ) 是 高 性 能 科学 计算 和 数据 分 析 的 基础 包 。 它 是 本 书 所 介 
绍 的 几乎 所 有 高 级 工具 的 构建 基础 。 其 部 分 功能 如 下 : 


:ndarray， 一 个 具有 矢量 算术 运算 和 复杂 广播 能 力 的 快速 且 节 省 空间 的 多 维 数组 。 
:用 于 对 整 组 数据 进行 快速 运算 的 标准 数学 范 数 无需 编写 循环 ) 。 

:用 于 读 写 磁盘 数据 的 工具 以 及 用 于 操作 内 存 映 射 文 件 的 工具 。 

:线性 代数 、 随 机 数 生 成 以 及 傅 里 叶 变 换 功 能 。 

:用 于 集成 由 C、C++、Fortran 等 语言 编写 的 代码 的 工具 。 


最 后 一 点 也 是 从 生态 系统 角度 来 看 最 重要 的 一 点 。 由 于 NumPy 提 供 了 一 个 简单 易 用 的 C APl， 
因此 很 容易 将 数据 传递 给 由 低级 语言 编写 的 外 部 库 ， 外 部 库 也 能 以 NumPy 数 组 的 形式 将 数据 
返回 给 Python。 这 个 功能 使 Python 成 为 一 种 包装 C/C++/Fortran 历史 代码 库 的 选择 ， 并 使 被 包 
装 库 拥有 一 个 动态 的 、 易 用 的 接口 。 


NumPy 本 身 并 没有 提供 多 么 高 级 的 数据 分 析 功 能 ， 理 解 NumPy 数 组 以 及 面向 数组 的 计算 将 有 
助 于 你 更 加 高 效 地 使 用 诸如 pandas 之 类 的 工具 。 如 果 你 是 Python 新 手 ， 而 且 只 是 想 用 pandas 
随便 处 理 一 下 数据 就 行 ， 那 就 跳 过 本 章 吧 ， 没 关系 的 。 更 多 NumPy 高 级 功能 (上 比如 广播 ) ， 
请 参见 第 12 章 。 


对 于 大 部 分 数据 分 析 应 用 而 言 ， 我 最 关注 的 功能 主要 集中 在 : 

:用 于 数据 整理 和 清理 、 子 集 构造 和 过 滤 、 转 换 等 快速 的 矢量 化 数组 运算 。 
-常用 的 数组 算法 ， 如 排序 、 唯 一 化 、 集 合 运 算 等 。 

-高效 的 描述 统计 和 数据 聚合 /摘要 运算 。 

:用 于 异 构 数据 集 的 合并 /连接 运算 的 数据 对 齐 和 关系 型 数据 运算 。 

-将 条 件 逻 辑 表 述 为 数组 表达 式 (而 不 是 带 有 if-elif-else 分 支 的 循环 ) 。 
数据 的 分 组 运算 (聚合 、 转 换 、 男 数 应 用 等 ) 。 第 5 章 将 对 此 进行 详细 讲解 。 


虽然 NumPy 提 供 了 这 些 功能 的 计算 基础 ， 但 你 可 能 还 是 想 将 pandas 作 为 数据 分 析 工 作 的 基础 
(尤其 是 对 于 结构 化 或 表格 化 数据 ) ， 因 为 它 提供 了 能 使 大 部 分 常见 数据 任务 变 得 非常 简洁 
的 丰富 高 级 接口 。pandas 还 提供 了 一 些 NumPy 所 没有 的 更 加 领域 特定 的 功能 ， 如 时 间 序 列 处 
理 等 。 


注意 : 在 本 章 以 及 本 书 中 ， 我 将 依照 标准 的 NumPy 约 定 ， 即 总 是 使 用 import numpy as np。 
当然 ， 你 也 可 以 为 了 不 写 np. 而 直接 在 代码 中 使 用 from numpy import *， 但 我 得 提醒 你 最 好 还 
是 不 要 养 成 这 样 的 坏 习惯 。 

NumPy 的 ndarray : 一 种 多 维 数组 对 象 

NumPy 最 重要 的 一 个 特点 就 是 其 N 维 数组 对 象 〈 即 ndarray) ， 该 对 象 是 一 个 快速 而 灵活 的 大 
数据 集 容 器 。 你 可 以 利用 这 种 数组 对 整 块 数据 执行 一 些 数 学 运算 ， 其 语法 跟 标 量 元 素 之 间 的 
运算 一 样 : 

In [8]: dataOut[8]:array([[ 0.9526, -0.246 , -0.8856], [ 0.5639, 0.2379, 0.9104]])In [9]: data * 
10 In [10]: data + dataOut[9]: Out[10]:array([[ 9.5256, -2.4601, -8.8565], array([[ 1.9051, 
-0.492 , -1.7713], [ 5.6385, 2.3794, 9.104 ]]) [ 1.1277, 0.4759, 1.8208]]) 

ndarray 是 一 个 通用 的 同 构 数 据 多 维 容 器 ， 也 就 是 说 ， 其 中 的 所 有 元 素 必须 是 相同 类 型 的 。 每 
个 数组 都 有 一 个 shape (一 个 表示 各 维度 大 小 的 元 组 ) 和 一 个 dtype (一 个 用 于 说 明 数 组 数据 
类 型 的 对 象 ) 

In [11]: data.shapeOut[11]: (2, 3)In [12]: data.dtypeOut[12]: dtype(float64 ) 

本 章 将 会 介绍 NumPy 数 组 的 基本 用 法 ， 这 对 于 本 书后 面 各 章 的 理解 基本 够 用 。 虽 然 大 多 数 数 
据 分 析 工 作 不 需要 深入 理解 NumPy， 但 是 精通 面向 数组 的 编程 和 思维 方式 是 成 为 Python 科学 
计算 牛人 的 一 大 关键 步骤 。 

注意 : 当 你 在 本 书 中 看 到 “数组 ` “NumPy 数 组 ”"、"ndarray" 时 ， 基 本 上 都 指 的 是 同一 样 未 
西 ， 即 ndarray 对 象 。 


创建 ndarray 


创建 数组 最 简单 的 办 法 就 是 使 用 array 画 数 。 它 接受 一 切 序列 型 的 对 象 (包括 其 他 数组 ) ， 然 
后 产生 一 个 新 的 含有 传 入 数据 的 NumPy 数 组 。 以 一 个 列表 的 转换 为 例 : 


In [13]: data1 = [6, 7.5, 8, 0, 1]In [14]: arr1 = np.array(data1)ln [15]: arr1Out[15]: array([ 6. ， 
7.5, 8. ,0. ,1.]) 


铸 套 序列 〈 比 如 由 一 组 等 长 列表 组 成 的 列表 ) 将 会 被 转换 为 一 个 多 维 数组 : 


In [16]: data2 = [[1, 2, 3, 4], [5S, 6, 7, 8]]In [17]: arr2 = np.array(data2)In [18]: 
arr2Out[18]:array([[1, 2, 3, 4], [5, 6, 7, 8]])In [19]: arr2.ndimOut[19]: 2In [20]: 
arr2.shapeOut[20]: (2, 4) 


除非 显 式 说 明 ( 稍 后 将 会 详细 介绍 ) ，np.array 会 尝试 为 新 建 的 这 个 数组 推断 出 一 个 较为 合适 
的 数据 类 型 。 数 据 类 型 保存 在 一 个 特殊 的 dtype 对 象 中 。 上 比如 说 ， 在 上 面 的 两 个 例子 中 ， 我 们 
有 : 


In [21]: arr1.dtypeOut[21]: dtype('float64')In [22]: arr2.dtype Out[22]: dtype('int64') 


除 np.array 之 外 ， 还 有 一 些 函 数 也 可 以 新 建 数 组 。 比 如，zeros 和 ones 分 别 可 以 创建 指定 长 度 
或 形状 的 全 0 或 全 1 数组 。empty 可 以 创建 一 个 没有 任何 具体 值 的 数组 。 要 用 这 些 方法 创建 多 维 
数组 ， 只 需 传 人 一 个 表示 形状 的 元 组 即 可 : 


In [23]: np.zeros(10)Out[23]: array([ 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])In [24]: np.zeros((3， 
6))Out[24]:array([[ 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0.]])In [25]: 
np.empty((2, 3, 2))Out[25]:array([[[ 4.94065646e-324, 4.94065646e-324], [ 3.87491056e- 
297, 2.46845796e-130], [ 4.94065646e-324, 4.94065646e-324]], [[ 1.90723115e+083， 
5.73293533e-053], [ -2.33568637e+124, -6.70608105e-012], [ 4.42786966e+160， 
1.27100354e+025]]]) 


警告 : 认为 np.empty 会 返回 全 0 数组 的 想法 是 不 安全 的 。 很 多 情况 下 (如 前 所 示 ) ， 它 返回 
的 都 是 一 些 未 初始 化 的 垃圾 值 。 


arange 是 Python 内 置 画 数 range 的 数组 版 : 
In [26]: np.arange(15)Out[26]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) 


表 4-1 列 出 了 一 些 数组 创建 画 数 。 由 于 NumPy 关 注 的 是 数值 计算 ， 因此， 如 果 没 有 特别 指定 
数据 类 型 基本 都 是 float64 ( 浮 点 数 ) 。 


表 4-1: 数组 创建 函数 


函数 说 明 
array 将 输入 数据 (列表 、 元 组 、 数 组 或 其 他 序列 类 型 ) 转换 为 


ndarray。 要 么 推断 出 dtype， 要 么 显 式 指定 dtype。 上 默认 直接 复 


asarray 将 输入 转换 为 ndarray， 如 果 输 入 本 身 就 是 一 个 ndarray 就 不 进行 
复制 
arange 类 似 于 内 苇 的 range， 但 返回 的 是 一 个 ndarray 而 不 是 列表 


ones, ones_like 根据 指定 的 形状 和 dtype 创 建 一 个 全 1 数组 。ones_like 以 另 一 个 数 
组 为 参数 ， 并 根据 其 形状 和 dtype 创 建 一 个 全 1 数组 

zeros, zeros_like 类 似 于 ones 和 ones_like， 只 不 过 产生 的 是 全 0 数组 而 已 

empty、empty_like ”创建 新 数组 ， 只 分 配 内 存 空间 但 不 填充 任何 值 

eye、identity 创建 一 个 正方 的 N xN 单 位 矩 阵 (对 角 线 为 1， 其 余 为 0) 


ndarray 的 数据 类 型 


dtype (数据 类 型 ) 是 一 个 特殊 的 对 象 ， 它 含有 ndarray 将 一 块 内 存 解 释 为 特定 数据 类 型 所 需 的 
信息 : 


In [27]: arr1 = np.array([1, 2, 3], dtype=np.float64)In [28]: arr2 = np.array([1, 2, 3], 
dtype=np.int32)In [29]: arr1.dtype In [30]: arr2.dtype Out[29]: dtype('float64') Out[30]: 
dtype('int32') 


dtype 是 NumPy 如 此 强大 和 有 灵活 的 原因 之 一 。 多 数 情况 下 ， 它 们 直接 映射 到 相应 的 机 器 表示 ， 
这 使 得 “ 读 写 磁盘 上 的 二 进 制 数据 流 " 以 及 “集成 低级 语言 代码 (如 C、Fortran) "等 工作 变 得 更 
加 简单 。 数 值 型 dtype 的 命名 方式 相同 : 一 个 类 型 名 (如 float 或 int) ， 后 面 跟 一 个 用 于 表示 各 
元 素 位 长 的 数字 。 标 准 的 双 精 度 浮 点 值 〈 即 Python 中 的 float 对 象 ) 需要 占用 8 字 节 ( 即 64 
位 ) 。 因 此 ， 该 类 型 在 NumPy 中 就 记 作 float64。 表 4-2 列 出 了 NumPy 所 支持 的 全 部 数据 类 
型 。 


注意 : 记 不 住 这 些 NumPy 的 dtype 也 没关系 ， 新 手 更 是 如 此 。 通 常 只 需要 知道 你 所 人 处理 的 数据 
的 大 致 类 型 是 浮 点 数 、 复 数 、 整 数 、 布 尔 值 、 字 符 串 ， 还 是 普通 的 Python 对 象 即 可 。 当 你 需 
要 控制 数据 在 内 存 和 磁 角 中 的 存储 方式 时 (尤其 是 对 大 数据 集 ) ， 那 就 得 了 解 如 何 控制 存储 
类 型 。 


表 4-2: NumPy 的 数据 类 型 


类 型 类 型 代码 ”说 明 

int8、uint8 i1、u1 有 符号 和 无 符号 的 8 位 (1 个 字 节 ) 整 型 

int16、uint16 IZ 有 符号 和 无 符号 的 16 位 (2 个 字 节 ) 整 型 

int32、uint32 i4、u4 有 符号 和 无 符号 的 32 位 (4 个 字 节 ) 整 型 

int64、uint64 i8、u8 有 符号 和 无 符号 的 64 位 (8 个 字 节 ) 整 型 

float16 f2 半 精 度 浮 点 数 

float32 f4 或 f 标准 的 单 精度 浮 点 数 。 与 C 的 float 兼 容 

float64 f8 或 d 标准 的 双 精 度 浮 点 数 。 与 C 的 double 和 Python 
的 float 对 象 兼容 

float128 f16 或 g 扩展 精度 浮 点 数 

complex64、complex128、c8、c16、 ”分 别 用 两 个 32 位 、64 位 或 128 位 浮 点 数 表 示 的 

complex256 c32 复数 


bool ? 





表 4-2: NumPy 的 数据 类 型 ( 续 ) 


类 型 类 型 代码 ”说明 
object O Python 对 象 类 型 
string_ 5 固定 长 度 的 字符 囊 类 型 (每 个 字符 1 个 字 节 ) 。 


例如 ， 要 创建 一 个 长 度 为 10 的 字符 串 ， 应 使 用 
S10 

固定 长 度 的 unicode 类 型 ( 字 节 数 由 平台 决定 ) 。 
跟 字 符 串 的 定义 方式 一 样 (如 U10) 


unicode U 


你 可 以 通过 ndarray 的 astype 方 法 显 式 地 转换 其 dtype : 


In [31]: arr = np.array([1, 2, 3, 4, 5])In [32]: arr.dtypeOut[32]: dtype('int64')In [33]: float_arr = 
arr.astype(np.float64)In [34]: float_arr.dtypeOut[34]: dtype('float64') 


在 本 例 中 ， 整 数 被 转换 成 了 浮 点 数 。 如 果 将 浮 点 数 转换 成 整数 ， 则 小 数 部 分 将 会 被 截断 : 


In [35]: arr = np.array([3.7, -1.2, -2.6, 0.5, 12.9, 10.1])In [36]: arrOut[36]: array([ 3.7, -1.2, 
-2.6, 0.5, 12.9, 10.1])In [37]: arr.astype(np.int32)Out[37]: array([ 3, -1, -2, 0, 12, 10], 
dtype=int32) 


如 果 某 字符 串 数组 表示 的 全 是 数字 ， 也 可 以 用 astype 将 其 转换 为 数值 形式 : 


In [38]: numericstrings = np.array(['1.25", -9.6", '42', dtype=np.string)In [39]: 
numeric_strings.astype(float)Out[39]: array([ 1.25, -9.6 , 42. ]) 
如 果 转 换 过 程 因 为 某 种 原因 而 失败 了 (比如 某 个 不 能 被 转换 为 float64 的 字符 串 ) ， 就 会 引发 


一 个 TypeError。 看 到 了 吧 ， 我 比较 懒 ， 写 的 是 float 而 不 是 np.float64 ; NumPy 很 聪明 ， 它 会 
将 Python 类 型 映射 到 等 价 的 dtype 上 。 


数组 的 dtype 还 有 另外 一 个 用 法 : 


In [40]: int_array = np.arange(10)In [41]: calibers = np.array([.22, .270, .357, .380, .44, .50]， 
dtype=np.float64)In [42]: int_array.astype(calibers.dtype)Out[42]: array([ 0., 1., 2., 3., 4., 5.， 
6., 7., 8., 9.]) 

你 还 可 以 用 简洁 的 类 型 代码 来 表示 dtype : 

In [43]: empty_uint32 = np.empty(8, dtype='u4')In [44]: empty_uint32Out[44]:array([ 0, 0， 
65904672, 0, 64856792, 0, 39438163, 0], dtype=uint32) 


注意 : 调用 astype 无 论 如 何 都 会 创建 出 一 个 新 的 数组 (原始 数据 的 一 份 拷贝 ) ， 即 使 新 dtype 
跟 老 dtype 相 同 也 是 如 此 。 


警告 : 注意 ， 浮 点 数 (比如 float64 和 float32) 只 能 表示 近似 的 分 数值 。 在 复杂 计算 中 ， 由 于 
可 能 会 积累 一 些 浮 点 错误 ， 因 此 比较 操作 只 能 在 一 定 小 数位 以 内 有 效 。 


数组 和 标量 之 间 的 运算 


数组 很 重要 ， 因 为 它 使 你 不 用 编写 循环 即 可 对 数据 执行 批量 运算 。 这 通常 就 叫做 矢量 化 
(vectorization) 。 大 小 相等 的 数组 之 间 的 任何 算术 运算 都 会 将 运算 应 用 到 元 素 级 : 


In [45]: arr = np.array([[1., 2., 3.], [4. 5., 6.]])In [46]: arrOut[46]:array([[ 1., 2., 3.], [ 4., 5., 
6.]])In [47]: arr * arr In [48]: arr - arrOut[47]: Out[48]:array([[ 1., 4., 9.], array([[ 0., 0., 0.], [ 16., 
25., 36.]]) [0., 0., 0.]]) 


同样 ， 数 组 与 标量 的 算术 运算 也 会 将 那个 标量 值 传播 到 各 个 元 素 : 


In [49]: 1 / arr In [S50]: arr 0.5Out[49]: Out[50]:array([[ 1. , 0.5 , 0.3333], array([[ 1., 1.4142, 
1.7321], [ 0.25 , 0.2, 0.1667]]) [ 2. , 2.2361, 2.4495]]) 


不 同 大 小 的 数组 之 间 的 运算 叫做 广播 (broadcasting) ， 我 们 将 在 第 12 章 中 对 其 进行 详细 讨 
论 。 本 书 的 内 容 不 需要 对 广播 机 制 有 多 深 的 理解 。 


基本 的 索引 和 切片 
NumPy 数 组 的 素 引 是 一 个 内 容 丰 富 的 主题 ， 因 为 选取 数据 子 集 或 单个 元 素 的 方式 有 很 多 。 一 
维 数组 很 简单 。 从 表面 上 看 ， 它 们 跟 Python 列 表 的 功能 差不多 : 


In [51]: arr = np.arange(10)In [52]: arrOut[52]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])In [53]: 
arr[5]Out[53]: SIn [54]: arr[5:8]Out[54]: array([5, 6, 7])In [55]: arr[5:8] = 12In [56]: arrOut[56]: 
array([ 0, 1, 2, 3, 4, 12, 12, 12, 8, 9]) 


如 上 所 示 ， 当 你 将 一 个 标量 值 赋 值 给 一 个 切片 时 (如 arr[5:8]=12) ， 该 值 会 自动 传播 〈 也 就 说 
后 面 将 会 讲 到 的 “广播 ") 到 整个 选区 。 跟 列表 最 重要 的 区 别 在 于 ， 数 组 切片 是 原始 数组 的 视 
图 。 这 意味 着 数据 不 会 被 复制 ， 视 图 上 的 任何 修改 都 会 直接 反映 到 源 数组 上 : 


In [57]: arr_slice = arr[5:8]In [58]: arr_slice[1] = 12345ln [59]: arrOut[59]: array([ 0, 1, 2, 3, 4, 
12, 12345, 12, 8, 9])In [60]: arr_slice[:] = 64In [61]: arrOut[61]: array([ 0, 1, 2, 3, 4, 64, 64, 
64, 8, 9]) 


如 果 你 刚 开始 接触 NumPy， 可 能 会 对 此 感到 惊讶 (尤其 是 当 你 鲁 经 用 过 其 他 热衷 于 复制 数组 
数据 的 编程 语言 ) 。 由 于 NumPy 的 设计 目的 是 处 理 大 数据 ， 所 以 你 可 以 想象 一 下 ， 假 如 
NumpPy 坚 持 要 将 数据 复制 来 复制 去 的 话 会 产生 何等 的 性 能 和 内 存 问 题 。 


警告 : 如 果 你 想 要 得 到 的 是 ndarray 切 片 的 一 份 副本 而 非 视图 ， 就 需要 显 式 地 进行 复制 操作 ， 
例如 arr[5:8].copy()。 


对 于 高 维度 数组 ， 能 做 的 事情 更 多 。 在 一 个 二 维 数 组 中 ， 各 索引 位 置 上 的 元 素 不 再 是 标量 而 
是 一 维 数组 : 


In [62]: arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])In [63]: arr2d[2]Out[63]: array([7, 8, 9]) 


因此 ， 可 以 对 各 个 元 素 进 行 递归 访问 ， 但 这 样 需要 做 的 事情 有 点 多 。 你 可 以 传人 一 个 以 逗号 
隔 开 的 索引 列表 来 选取 单个 元 素 。 也 就 是 说 ， 下 面 两 种 方式 是 等 价 的 : 


In [64]: arr2d[0][2]Out[64]: 3In [65]: arr2d[0, 2]Out[65]: 3 


图 4-1 说 明了 二 维 数组 的 索引 方式 。 


axis 1 
0 1 2 


图 4-1 : NumPy 数 组 中 的 元 素 索 引 


在 多 维 数 组 中 ， 如 果 省 略 了 后 面 的 素 引 ， 则 返回 对 象 会 是 一 个 维度 低 一 点 的 ndarray ( 它 含 有 
高 一 级 维度 上 的 所 有 数据 译注 1) 。 因 此 ， 在 2x2x3 数 组 arr3d 中 : 


In [66]: arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])In [67]: 
arr3dOut[67]:array([[[ 1, 2, 3], [ 4, 5, 6]], [[ 7, 8, 9], [10, 11, 12]]]) 


arr3d[0] 是 一 个 2x3 数 组 : 
In [68]: arr3d[0]Out[68]:array([[1, 2, 3], [4, 5, 6]]) 


标量 值 和 数组 都 可 以 被 赋值 给 arr3d[0] : 


In [69]: old_values = arr3d[0].copy()In [70]: arr3d[0] = 42In [71]: arr3dOut[71]:array([[[42, 42， 
42], [42, 42, 42]], [[ 7, 8, 9], [10, 11, 12]]])In [72]: arr3d[0] = old_valuesln [73]: 
arr3dOut[73]:array([[[ 1, 2, 3], [ 4, 5, 6]], [[ 7, 8, 9], [10, 11, 12]]]) 


以 此 类 推 ，arr3d[1,0] 可 以 访问 索引 以 (1,0) 开 头 的 那些 值 〈 以 一 维 数组 的 形式 返回 ) 
In [74]: arr3d[1, 0]Out[74]: array([7, 8, 9]) 

注意 ， 在 上 面 所 有 这 些 选取 数组 子 集 的 例子 中 ， 返 回 的 数组 都 是 视图 。 

切片 索引 

ndarray 的 切片 语法 跟 Python 列 表 这 样 的 一 维 对 象 差不多 : 

In [75]: arr[1:6]Out[75]: array([ 1, 2, 3, 4, 64]) 


高 维度 对 象 的 花样 更 多 ， 你 可 以 在 一 个 或 多 个 轴 上 进行 切片 ， 也 可 以 跟 整 数 素 引 混合 使 用 。 
对 于 上 面 那 个 二 维 数组 arr2d， 其 切片 方式 稍 显 不 同 : 


In [76]: arr2d In [77]: arr2d[:2]Out[76]: Out[77]:array([[1 2, 3], array([[1, 2, 3], [4, 5, 6], [4, 5, 
6]]) [7, 8, 9]]) 


可 以 看 出 ， 它 是 治 着 第 0 轴 〈 即 第 一 个 轴 ) 切片 的 。 也 就 是 说 ， 切 片 是 治 着 一 个 轴 向 选取 元 素 
的 。 你 可 以 一 次 传人 多 个 切片 ， 就 像 传人 多 个 索引 那样 : 


In [78]: arr2d[:2, 1:]Out[78]:array([[2, 3], [5, 6]]) 


像 这 样 进行 切片 时 ， 只 能 得 到 相同 维 数 的 数组 视图 。 通 过 将 整数 索引 和 切片 混合 ， 可 以 得 到 
低 维 度 的 切片 : 


In [79]: arr2d[1, :2] In [80]: arr2d[2, :1]Out[79]: array([4, 5]) Out[80]: array([7]) 


图 4-2 对 此 进行 了 说 明 。 注 意 , “只 有 冒号 "表示 选取 整个 轴 ， 因 此 你 可 以 像 下 面 这 样 只 对 高 维 
轴 进 行 切 片 : 


In [81]: arr2d[:, :1]Out[81]:array([[1], [4], [7]]) 

自然 ， 对 切片 表达 式 的 赋值 操作 也 会 被 扩散 到 整个 选区 : 
In [82]: arr2d[:2, 1:] = 0 

布尔 型 索引 


来 看 这 样 一 个 例子 ， 假 设 我 们 有 一 个 用 于 存储 数据 的 数组 以 及 一 个 存储 姓名 的 数组 (含有 重 
复 项 ) 。 在 这 里 ， 我 将 使 用 numpy.random 中 的 randn 画 数 生成 一 些 正 态 分 布 的 随机 数据 : 


In [83]: names = np.array([Bob'， Joe'，Will，Bob'，Wil，Joe'，Joe'])In [84]: data = randn(7, 
4)In [85]: namesoOut[85]:array([Bob'， Joe'，Will，Bob'，Will，Joe'，Joe], dtype='|S4')In [86]: 
dataOut[86]:array([[-0.048 , 0.5433, -0.2349, 1.2792], [-0.268 , 0.5465, 0.0939, -2.0445], 


[0.047 , -2.026 , 0.7719, 0.3103], [ 2.1452, 0.8799, -0.0523, 0.0672], [-1.0023, -0.1698, 
1.1503, 1.7289], [ 0.1913, 0.4544, 0.4519, 0.5535], [ 0.5994, 0.8174, -0.9297, -1.2564]]) 


Expression Shape 

量 arr[ :2, 12] (2 32) 
arr[2] (333 

arr[2, :] (3,) 

arrlass «l {3 

国 : 只- 二 和 (3 2) 
3 2] (2 

arr[1:2, :2] 人 


图 4-2 : 二 维 数组 切片 


假设 每 个 名 字 都 对 应 data 数 组 中 的 一 行 ， 而 我 们 想 要 选 出 对 应 于 名 字 "Bob" 的 所 有 行 。 跟 算术 
运算 一 样 ， 数 组 的 比较 运算 (如 ==) 也 是 矢量 化 的 。 因 此 ， 对 names 和 字符 串 "Bob" 的 比较 运 
算 将 会 产生 一 个 布尔 型 数组 : 


In [87]: names == 'Bob'Out[87]: array([ True, False, False, True, False, False, False], 
dtype=bool) 
这 个 布尔 型 数组 可 用 于 数组 索引 : 


In [88]: data[names == 'Bob']out[88]:array([[-0.048 , 0.5433, -0.2349, 1.2792], [ 2.1452, 
0.8799, -0.0523, 0.0672]]) 


布尔 型 数组 的 长 度 必 须 跟 被 索引 的 轴 长 度 一 致 。 此 外 ， 还 可 以 将 布尔 型 数组 跟 切 片 、 整 类 
(或 整数 序列 ， 稍 后 将 对 此 进行 详细 讲解 ) 混合 使 用 : 

In [89]: data[names == 'Bob', 2:]Out[89]:array([[-0.2349, 1.2792], [-0.0523, 0.0672]])In [90]: 

data[names == 'Bob', 3]Out[90]: array([ 1.2792, 0.0672]) 


要 选择 除 "Bob" 以 外 的 其 他 值 ， 既 可 以 使 用 不 等 于 符号 (!=) ， 也 可 以 通过 负 号 〈 一 ) 对 条 件 


行 否定 : 


人 


谨 


In [91]: names != 'Bob'Out[91]: array([False, True, True, False, True, True, True], 
dtype=bool)In [92]: data[-(names == 'Bob')]Out[92]:array([[-0.268 , 0.5465, 0.0939, -2.0445]， 
[-0.047 , -2.026 , 0.7719, 0.3103], [-1.0023, -0.1698, 1.1503, 1.7289], [ 0.1913, 0.4544, 
0.4519, 0.5535], [ 0.5994, 0.8174, -0.9297, -1.2564]]) 


选取 这 三 个 名 字 中 的 两 个 需要 组 合 应 用 多 个 布尔 条 件 ， 使 用 & (和 ) 、| (或 ) 之 类 的 布尔 算术 
运算 符 即 可 : 


In [93]: mask = (names == 'Bob') | (names == "Will')In [94]: maskOut[94]: array([True, False， 
True, True, True, False, False], dtype=bool)In [95]: data[mask]Out[95]:array([[-0.048 ， 
0.5433, -0.2349, 1.2792], [-0.047 , -2.026 , 0.7719, 0.3103], [ 2.1452, 0.8799, -0.0523, 
0.0672], [-1.0023, -0.1698, 1.1503, 1.7289]]) 


通过 布尔 型 素 引 选取 数组 中 的 数据 ， 将 总 是 创建 数据 的 副本 ， 即 使 返回 一 模 一 样 的 数组 也 是 
如 此 。 


警告 : Python 关键 字 and 和 or 在 布尔 型 数组 中 无 效 。 

通过 布尔 型 数组 设置 值 是 一 种 经 常用 到 的 手段 。 为 了 将 data 中 的 所 有 负 值 都 设置 为 0， 我 们 只 
Ew 

FD 


In [96]: data[data < 0] = OIn [97]: dataoOut[97]:array([[ 0. , 0.5433, 0., 1.2792], [ 0. , 0.5465, 
0.0939, 0. ], [0., 0. , 0.7719, 0.3103], [ 2.1452, 0.8799, 0. , 0.0672], [ 0. , 0., 1.1503, 
1.7289], [ 0.1913, 0.4544, 0.4519, 0.5535], [ 0.5994, 0.8174, 0. , 0. ]]) 


过 一 维 布尔 数组 设置 整 行 或 列 的 值 也 很 简单 : 


In [98]: data[names != 'Joe'] = 7In [99]: dataOut[99]:array([[ 7. ,7. ，7. ,7. ], [ 0. ,0.5465， 
0.0939, 0.],[7.,7.,7.,7.],[7.,7.,7.,7.],[7.,7.,7.,7.],[0.1913, 0.4544, 0.4519, 
0.5535], [ 0.5994, 0.8174, 0. , 0. ]]) 


花 式 索 引 


花 式 索引 (Fancy indexing) 是 一 个 NumPy 术 语 ， 它 指 的 是 利用 整数 数组 进行 索引 。 假 设 我 
们 有 一 个 8x4 数 组 : 


In [100]: arr = np.empty((8, 4))In [101]: for i in range(8): ....: arr[i] = iln [102]: 
arrOut[102]:array([[ 0., 0., 0., 0.], [1., 1., 1., 1.], [2., 2.,2.,2.],[3.,3.,3.,3.],[4.,4.,4.,4.],[ 
5., 5., 5., 5.], [6., 6., 6., 6.], [7., 7., 7., 7.]]) 


为 了 以 特定 顺序 选取 行 子 集 ， 只 需 传 人 一 个 用 于 指定 顺序 的 整数 列表 或 ndarray 即 可 : 


In [103]: arr[[4, 3, 0, 6]]Out[103]:array([[ 4., 4., 4., 4.], [ 3., 3., 3., 3.], [ 0., 0., 0., 0.], [6., 6., 6., 
6.]]) 


这 段 代码 确实 达到 我 们 的 要 求 了 |! 使 用 负数 索引 将 会 从 末尾 开始 选取 行 : 


In [104]: arr[[-3, -5, -7]]Out[104]:array([[ 5., 5., 5., 5.], [ 3., 3., 3., 3.], [1., 1., 1., 1.]]) 


一 次 传 入 多 个 素 引 数组 会 有 一 点 特别 。 它 返回 的 是 一 个 一 维 数组 ， 其 中 的 元 素 对 应 各 个 索引 
元 组 : 


有 关 reshape 的 知识 将 在 第 12 章 中 讲解 In 
[105]: arr = np.arange(32).reshape((8, 4))In 
[106]: arrOut[106]:array([[ 0, 1, 2, 3], [ 4, S, 
6, 7], [ 8, 9, 10, 11], [12, 13, 14, 15], [16, 17， 
18, 19], [20, 21, 22, 23], [24, 25, 26, 27], [28， 
29, 30, 31]])In [107]: arr[[1, 5S, 7, 2], [0, 3, 1, 
2]]Out[107]: array([ 4, 23, 29, 10]) 

我 们 来 看 看 具体 是 怎么 一 回 事 。 最 终 选 出 的 是 元 素 (1,0)、(5,3)、(7,1) 和 (2,2)。 这 个 花 式 素 引 


的 行为 可 能 会 眼 某 些 用 户 的 预期 不 一 样 ( 包 括 我 在 内 ) ， 选 取 矩 阵 的 行列 子 集 应 该 是 和 矩形 区 
域 的 形式 才 对 。 下 面 是 得 到 该 结果 的 一 个 办 法 : 


In [108]: arrlf1, 5, 7, 2]][:, [0, 3, 1, 2]]Outfr108]:array([[ 4, 7, 5, 6], [20, 23, 21, 22], [28, 31, 29, 
30], [ 8, 11, 9, 10]]) 


另外 一 个 办 法 是 使 用 np.ix_ 函 数 ， 它 可 以 将 两 个 一 维 整数 数组 转换 为 一 个 用 于 选取 方形 区 域 的 
索引 器 : 


In [109]: arrInp.ix_([1, 5, 7, 2], [0, 3, 1, 2])]Out[109]:array([[ 4, 7, 5, 6], [20, 23, 21, 22], [28, 
31, 29, 30], [ 8, 11, 9, 10]]) 


记 住 ， 花 式 素 引 跟 切片 不 一 样 ， 它 总 是 将 数据 复制 到 新 数组 中 。 
数组 转 置 和 轴 对 换 


转 置 (transpose) 是 重 塑 的 一 种 特殊 形式 ， 它 返回 的 是 源 数据 的 视图 (不 会 进行 任何 复制 操 
作 ) 。 数 组 不 仅 有 transpose 方 法 ， 还 有 一 个 特殊 的 T 属 性 : 

In [110]: arr = np.arange(15).reshape((3, 5))In [111]: arrOut[111]:array([[ 0, 1, 2, 3, 4], [ 5, 6, 
7, 8, 9], [10, 11, 12, 13, 14]])In [112]: arr.TOut[112]:array([[ 0, 5, 10], [ 1, 6, 11], [ 2, 7, 12], [ 3, 
8, 13], [ 4, 9, 14]]) 


在 进行 矩阵 计算 时 ， 经 常 需要 用 到 该 操作 ， 比 如 利用 np.dot 计 算 和 矩阵 内 积 XTX : 


In [113]: arr = np.random.randn(6, 3)In [114]: np.dot(arr.T, arr)Out[114]:array([[ 2.584 ， 
1.8753, 0.8888], [ 1.8753, 6.6636, 0.3884], [ 0.8888, 0.3884, 3.9781]]) 


对 于 高 维 数组 ，transpose 需 要 得 到 一 个 由 轴 编 号 组 成 的 元 组 才能 对 这 些 轴 进 行 转 置 (比较 费 
脑子 ) 


In [115]: arr = np.arange(16).reshape((2, 2, 4))In [116]: arrOut[116]:array([[[ 0, 1, 2, 3], [ 4, 5， 
6, 7]], [[ 8, 9, 10, 11], [12, 13, 14, 15]]])In [117]: arr.transpose((1, 0, 2))Out[117]:array([[[ 0, 1, 
2, 3], [ 8, 9, 10, 11]], [[ 4, 5, 6, 7], [12, 13, 14, 15]]]) 


简单 的 转 置 可 以 使 用 .T， 它 其 实 就 是 进行 轴 对 换 而 已 。ndarray 还 有 一 个 swapaxes 方 法 ， 它 需 
要 接受 一 对 轴 编 号 : 


In [118]: arrOut[118]:array([[[ 0, 1, 2, 3], [ 4, 5, 6, 7]], [[ 8, 9, 10, 11], [12, 13, 14, 15]]])In [119]: 
arr.swapaxes(1, 2)Out[119]:array([[[ 0, 4], [ 1, 5], [ 2, 6], [ 3, 7]], [[ 8, 12], [ 9, 13], [10, 14], [11, 
15]]]) 


swapaxes 也 是 返回 源 数 据 的 视图 〈 不 会 进行 任何 复制 操作 ) 。 

译注 1 

: 括号 外 面 的 “维度 "是 一 维 、 二 维 、 三 维 、 四 维 之 类 的 意思 ， 而 括号 里 面 的 应 该 理解 为 “ 轴 ”。 
也 就 是 说 ， 这 里 指 的 是 “返回 的 低 维 数组 含有 原始 高 维 数 组 某 条 轴 上 的 所 有 数据 ”。 
通用 画 数 : 快速 的 元 素 级 数组 画 数 


通用 函数 ( 即 ufunc) 是 一 种 对 ndarray 中 的 数据 执行 元 素 级 运算 的 函数 。 你 可 以 将 其 看 做 简单 
郴 数 (接受 一 个 或 多 个 标量 值 ， 并 产生 一 个 或 多 个 标量 值 ) 的 矢量 化 包装 器 。 


许多 ufunc 都 是 简单 的 元 素 级 变 体 ， 如 sqrt 和 exp : 


In [120]: arr = np.arange(10)In [121]: np.sqrt(arr)Out[121]:array([ 0., 1., 1.4142, 1.7321, 2. ， 
2.2361, 2.4495, 2.6458, 2.8284, 3. ])In [122]: np.exp(arr)Out[122]:array([ 1., 2.7183, 7.3891, 
20.0855, 54.5982, 148.4132, 403.4288, 1096.6332, 2980.958 , 8103.0839]) 


这 些 都 是 一 元 (unary) ufunc。 另 外 一 些 ( 如 add 或 maximum) 接受 2 个 数组 (因此 也 叫 二 元 
(binary) ufunc) ， 并 返回 一 个 结果 数组 : 


In [123]: x = randn(8)In [124]: y = randn(8)In [125]: xOut[125]:array([ 0.0749, 0.0974, 0.2002， 
-0.2551, 0.4655, 0.9222, 0.446 , -0.9337])In [126]: yOut[126]:array([ 0.267 , -1.1131, 
-0.3361, 0.6117, -1.2323, 0.4788, 0.4315, -0.7147])In [127]: np.maximum(x, y) # 元 素 级 最 大 
值 Out[127]:array([ 0.267 , 0.0974, 0.2002, 0.6117, 0.4655, 0.9222, 0.446 , -0.7147]) 


虽然 并 不 常见 ， 但 有 些 ufunc 的 确 可 以 返回 多 个 数组 。modf 就 是 一 个 例子 ， 它 是 Python 内 置 画 
数 divmod 的 矢量 化 版 本 ， 用 于 浮 点 数 数组 的 小 数 和 整数 部 分 。 


In [128]: arr = randn(7)* SIn [129]: np.modf(arr)Out[129]:(array([-0.6808, 0.0636, -0.386 ， 
0.1393, -0.8806, 0.9363, -0.883 ]), array([-2., 4., -3., 5., -3., 3. -6.])) 


表 4-3 和 表 4-4 分 别 列 出 了 一 些 一 元 和 二 元 ufunc。 
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表 4-3; 一 元 Ufunc 
函数 
abs、fabs 


sqrt 
square 


exp 


说 明 

计算 整数 、 浮 点 数 或 复数 的 绝对 值 。 对 于 非 复 数值 ， 可 以 
使 用 更 快 的 fabs 

计算 各 元 素 的 平方 根 。 相 当 于 arr ** 0.5 

计算 各 元 素 的 平方 。 相 当 于 arr ** 2 

计算 各 元 素 的 指数 e* 


log、log10、log2、log1p 分 别 为 自然 对 数 (底数 为 e) 、 底 数 为 10 的 log、 底 数 为 2 的 


sign 
ceil 


floor 


rint 
modf 


isnan 


isfinite、isinf 


cos、cosh、sin 、sinh 、 
tan、tanh 


log、 log(1 + Xx) 

计算 各 元 素 的 正 负 号 : 1 ( 正 数 ) 、0 ( 零 ) 、 一 1 (负数 ) 
计算 各 元 素 的 ceiling 值 ， 即 大 于 等 于 该 值 的 最 小 整数 
计算 各 元 素 的 floor 值 ， 即 小 于 等 于 该 值 的 最 大 整数 


将 各 元 素 值 四 会 五 入 到 最 接近 的 整数 ,保留 dtype 

将 数组 的 小 数 和 整数 部 分 以 两 个 独立 数组 的 形式 返回 

返回 一 个 表示 “哪些 值 是 NaN (这 不 是 一 个 数字 ) ”的 布 
尔 型 数组 

分 别 返 回 一 个 表示 “哪些 元 素 是 有 穷 的 ( 非 inf， 非 
NaN) ”或 “ 嘟 些 元 素 是 无 穷 的 ”的 布尔 型 数组 

普通 型 和 双 曲 型 三 角 函 数 





表 4-3: 一 元 ufunc ( 续 ) 
函数 


说 明 


arccos、arccosh、arcsin、 反 三 角 函 数 
arcsinh、arctan、arctanh 


logical_not 


计算 各 元 素 not x 的 真 值 。 相 当 于 -arr 





表 4-4: 二 元 Ufunc 
函数 
add 
subtract 
multiply 
divide、floor_divide 


power 


maximum 、fmax 
minimum 、fmin 


mod 


copysign 


说 明 

将 数组 中 对 应 的 元 素 相 加 

从 第 一 个 数组 中 减 去 第 二 个 数组 中 的 元 素 
数组 元 素 相 乘 

除法 或 向 下 圆 整 除法 (丢弃 余数 ) 

对 第 一 个 数组 中 的 元 素 A， 根 据 第 一 个 数组 中 的 相应 元 素 B， 计 
算 A 

元 素 级 的 最 大 值 计 算 。fmax 将 忽略 NaN 

元 素 级 的 最 小 值 计 算 。fmin 将 忽略 NaN 

元 素 级 的 求 模 计算 (除法 的 余数 ) 

将 第 二 个 数组 中 的 值 的 符号 复制 给 第 一 个 数组 中 的 值 
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greater、greater_equal、 执行 元 素 级 的 比较 运算 最终 产生 布尔 型 数组 。 相 当 于 中 缀 运 
> Ss < < = | 





less、 less_equal. 算 





equal、not_equal 
logical_and、logical_or、 执行 元 素 级 的 真 值 逻 辑 运 算 。 相 当 于 中 级 运算 符 &、|、^ 
logical_xor 


利用 数组 进行 数据 处 理 


NumPy 数 组 使 你 可 以 将 许多 种 数据 处 理 任务 表述 为 简洁 的 数组 表达 式 (否则 需要 编写 循 
环 ) 。 用 数组 表达 式 代 蔡 循环 的 做 法 ， 通 常 被 称 为 矢量 化 。 一 般 来 说 ， 矢 量化 数组 运算 要 上 比 
等 价 的 纯 Python 方 式 快 上 一 两 个 数量 级 (其 至 更 多 ) ， 尤 其 是 各 种 数值 计算 。 在 后 面 内 容 中 
( 见 第 12 章 ) 我 特 介绍 广播 ， 这 是 一 种 针对 矢量 化 计算 的 强大 手段 。 


假设 我 们 想 要 在 一 组 值 (网 格 型 ) 上 计算 函数 sqrt(x^2+y^2)。np.meshgrid 函 数 接受 两 个 一 维 
数组 ， 并 产生 两 个 二 维 矩阵 〈 对 应 于 两 个 数组 中 所 有 的 (X,y) 对 ) 


In [130]: points = np.arange(-5, 5, 0.01) # 1000 个 间隔 相等 的 点 In [131]: xs, ys = 
np.meshgrid(points, points)ln [132]: ysOut[132]:array([[-5.，-5.，-5.，.…, -5. , -5. , -5. ], [-4.99, 
-4.99, -4.99, ..., -4.99, -4.99, -4.99], [-4.98, -4.98, -4.98, ..., -4.98, -4.98, -4.98], ..., [ 4.97, 
4.97, 4.97, ..., 4.97, 4.97, 4.97], [ 4.98, 4.98, 4.98, ..., 4.98, 4.98, 4.98], [ 4.99, 4.99, 4.99, ..., 
4.99, 4.99, 4.99]]) 


现在 ， 对 该 图 数 的 求 值 运算 就 好 办 了 ， 把 这 两 个 数组 当做 两 个 浮 点 数 那样 编写 表达 式 即 可 : 


In [134]: import matplotlib.pyplot as pltln [135]: z = np.sqrt(xs 2 + ys 2)In [136]: 
ZzOut[136]:array([[ 7.0711, 7.064 , 7.0569, ..., 7.0499, 7.0569, 7.064 ], [7.064 , 7.0569, 
7.0499, ..., 7.0428, 7.0499, 7.0569], [ 7.0569, 7.0499, 7.0428, ..., 7.0357, 7.0428, 7.0499)], 

., [7.0499, 7.0428, 7.0357, ..., 7.0286, 7.0357, 7.0428], [ 7.0569, 7.0499, 7.0428, ..., 
7.0357, 7.0428, 7.0499], [ 7.064 , 7.0569, 7.0499, ..., 7.0428, 7.0499, 7.0569]])In [137]: 
plt.imshow(z, cmap=plt.cm.gray); plt.colorbar()Out[137]: In [138]: plt:title("Image plot of 
$\sqrt{x^2 + y^2}$ for a grid of values")Out[138]: 


函数 值 〈 一 个 二 维 数组 ) 的 图 形 化 结果 如 图 4-3 所 示 。 这 张 图 我 是 用 matplotlib 的 imshow 郴 数 
创建 的 。 


将 条 件 逻 辑 表述 为 数组 运算 


numpy.where 画 数 是 三 元 表达 式 x if condition else y 的 矢量 化 版 本 。 假 设 我 们 有 一 个 布尔 数组 
和 两 个 值 数组 : 


In [140]: xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])In [141]: yarr = np.array([2.1, 2.2, 2.3, 2.4, 
2.5])In [142]: cond = np.array([True, False, True, True, False]) 


Image plot of Vzz +P fora grid of values 
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图 4-3 : 根据 网 格 对 函数 求 值 的 结果 


假设 我 们 想 要 根据 cond 中 的 值 选取 xarr 和 yarr 的 值 : 当 cond 中 的 值 为 True 时 ， 选 取 xarr 的 值 ， 
否则 从 yarr 中 选取 。 列 表 推 导 式 的 写法 应 该 如 下 所 示 : 


In [143]: result = [(x if c else y) .…: for x, y, c¢ in zip(xarr, yarr, cond)]ln [144]: 
resultOut[144]: [1.1000000000000001, 2.2000000000000002, 1.3, 1.3999999999999999, 
2.5] 


这 有 几 个 问题 。 第 一 ， 它 对 大 数组 的 义理 速度 不 是 很 快 (因为 所 有 工作 都 是 由 纯 Python 完 成 
的 ) 。 第 二 ， 无 法 用 于 多 维 数组 。 若 使 用 np.where， 则 可 以 将 该 功能 写 得 非常 简洁 : 


In [145]: result = np.where(cond, xarr yarr)ln [146]: resultOut[146]: array([ 1.1, 2.2, 1.3, 1.4, 
2.5]) 


np.where 的 第 二 个 和 第 三 个 参数 不 必 是 数组 ， 它 们 都 可 以 是 标量 值 。 在 数据 分 析 工 作 中 ， 
where 通 常用 于 根据 另 一 个 数组 而 产生 一 个 新 的 数组 。 假 设 有 一 个 由 随机 数据 组 成 的 矩阵 ， 你 
希望 特 所 有 正 值 蔡 换 为 2， 将 所 有 负 值 替换 为 一 2。 若 利用 np.where， 则 会 非常 简单 : 


In [147]: arr = randn(4, 4)In [148]: arrOut[148]:array([[ 0.6372, 2.2043, 1.7904, 0.0752]， 
[-1.5926, -1.1536, 0.4413, 0.3483], [-0.1798, 0.3299, 0.7827, -0.7585], [ 0.5857, 0.1619, 
1.3583, -1.3865]])In [149]: np.where(arr > 0, 2, -2)Out[149]:array([[ 2, 2, 2, 2], [-2, -2, 2, 2], 
[-2, 2, 2, -2], [ 2, 2, 2, -2]])In [150]: np.where(arr > 0, 2, arr)# 只 将 正 值 设置 为 
2Out[150]:array([[ 2. , 2. , 2. , 2. ], [-1.5926, -1.1536, 2. , 2. ], [-0.1798, 2. , 2. , -0.7585], [ 2. ， 
2., 2., -1.3865]]) 


传递 给 where 的 数组 大 小 可 以 不 相等 ， 甚 至 可 以 是 标量 值 。 


只 要 稍微 动 动 脑子 ， 你 就 能 用 where 表 述 出 更 复杂 的 逮 辑 。 想 象 一 下 这 样 一 个 例子 ， 我 有 两 个 
布尔 型 数组 cond1 和 cond2， 和 希望 根据 4 种 不 同 的 布尔 值 组 合 实现 不 同 的 赋值 操作 : 


result = [for i in range(n): if cond1[i] and cond2[il: result.append(0) elif cond1[i]: 
result.append(1) elif cond2[il]: result.append(2) else: result.append(3) 


虽然 不 是 非常 明显 ， 但 这 个 for 循 环 确实 可 以 被 改 宇 成 一 个 嵌 套 的 where 表 达 式 : 
np.where(cond1 & cond2, 0, np.where(cond1, 1, np.where(cond2, 2, 3))) 


在 这 个 特殊 的 例子 中 ， 我 们 还 可 以 利用 “布尔 值 在 计算 过 程 中 可 以 被 当做 0 或 1 处 理 " 这 个 事实 ， 
所 以 还 能 将 其 写成 下 面 这 样 的 算术 运算 (虽然 看 上 去 有 点 神秘 ) 


result = 1 (cond1 -cond2) + 2 (cond2 & -cond1) + 3 * -(cond1 | cond2) 
数学 和 统计 方法 


可 以 通过 数组 上 的 一 组 数学 函数 对 整个 数组 或 某 个 轴 向 的 数据 进行 统计 计算 。sum、mean 以 
及 标准 差 std 等 聚合 计算 (aggregation， 通 常 叫做 约 简 (reduction) ) 既 可 以 当做 数组 的 实例 
方法 调用 ， 也 可 以 当做 顶级 NumPy 画 数 使 用 : 


In [151]: arr = np.random.randn(5, 4) # 正 态 分 布 的 数据 In [152]: arr.mean()Out[152]: 
0.062814911084854597ln [153]: np.mean(arr)Out[153]: 0.062814911084854597ln [154]: 
arr.sum()Out[154]: 1.2562982216970919 


mean 和 sum 这 类 的 函数 可 以 接受 一 个 axis 参 数 (用 于 计算 该 轴 向 上 的 统计 值 ) ， 最 终结 果 是 
一 个 少 一 维 的 数组 : 


In [155]: arrmean(axis=1)Out[155]: array([-1.2833, 0.2844, 0.6574, 0.6743, -0.0187])In 
[156]: arr.sum(0)Out[156]: array([-3.1003, -1.6189, 1.4044, 4.5712]) 


其 他 如 cumsum 和 cumprod 之 类 的 方法 则 不 聚合 ， 而 是 产生 一 个 由 中 间 结 果 组 成 的 数组 : 


In [157]: arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])In [158]: arr.cumsum(0)Out[158]:array([[ 
0, 1, 2], [ 3, 5, 7], [ 9, 12, 15]])In [159]: arr.cumprod(1)Out[159]:array([[ 0, 0, 0], [ 3, 12, 60], [ 
6, 42, 336]]) 


表 4-5 列 出 了 全 部 的 基本 数组 统计 方法 。 后 续 章 节 中 有 很 多 例子 都 会 用 到 这 些 方 法 。 
表 4-5: 基本 数组 统计 方法 


方法 说 明 

sum 对 数组 中 全 部 或 某 轴 向 的 元 素 求 和 。 零 长 度 的 数组 的 sum 为 0 
mean 算术 平均 数 。 零 长 度 的 数组 的 mean 为 NaN 

std、var 分 别 为 标准 差 和 方差 ， 自 由 度 可 调 (默认 为 n) 

min、max 最 大 值 和 最 小 值 


argmin 、argmax 分 别 为 最 大 和 最 小 元 素 的 案 3 


表 4-5: 基本 数组 统计 方法 ( 续 ) 


方法 说 明 

cumsum 所 有 元 素 的 累计 和 

cumprod 所 有 元 素 的 累计 积 
用 于 布尔 型 数组 的 方法 


在 上 面 这 些 方法 中 ， 布 尔 值 会 被 强制 转换 为 1 (True) 和 0 (False) 。 因 此 ，sum 经 常 被 用 来 
对 布尔 型 数组 中 的 True 值 计 数 : 


In [160]: arr = randn(100)In [161]: (arr > 0).sum()# 正 值 的 数量 Out[161]: 44 


另外 还 有 两 个 方法 any 和 all， 它 们 对 布尔 型 数组 非常 有 用 。any 用 于 测试 数组 中 是 否 存 在 一 个 
或 多 个 True， 而 all 则 检查 数组 中 所 有 值 是 否 都 是 True : 


In [162]: bools = np.array([False, False, True, False])In [163]: bools.any()Out[163]: Trueln 
[164]: bools.all()Out[164]: False 


这 两 个 方法 也 能 用 于 非 布 尔 型 数组 ， 所 有 非 0 元 素 将 会 被 当做 True。 
排序 
跟 Python 内 置 的 列表 类 型 一 样 ，NumPy 数 组 也 可 以 通过 sort 方 法 就 地 排序 : 


In [165]: arr = randn(8)In [166]: arrOut[166]:array([ 0.6903, 0.4678, 0.0968, -0.1349, 0.9879, 
0.0185, -1.3147, -0.5425])In [167]: arr.sort()In [168]: arrOut[168]:array([-1.3147, -0.5425, 
-0.1349, 0.0185, 0.0968, 0.4678, 0.6903, 0.9879]) 


多 维 数组 可 以 在 任何 一 个 轴 向 上 进行 排序 ， 只 需 和 将 轴 编 号 传 给 sort 即 可 : 


In [169]: arr = randn(5, 3)In [170]: arrOut[170]:array([[-0.7139, -1.6331, -0.4959], [ 0.8236, 
-1.3132, -0.1935], [-1.6748, 3.0336, -0.863 ], [-0.3161, 0.5362, -2.468 ], [ 0.9058, 1.1184, 
-1.0516]])In [171]: arr.sort(1)In [172]: arrOut[172]:array([[-1.6331, -0.7139, -0.4959], [-1.3132， 
-0.1935, 0.8236], [-1.6748, -0.863 , 3.0336], [-2.468 , -0.3161, 0.5362], [-1.0516, 0.9058, 
1.1184]]) 


顶级 方法 np.sort 区 回 的 是 数组 的 已 排序 副本 ， 而 就 地 排序 则 会 修改 数组 本 身 。 计 算数 组 分 位 
数 最 简单 的 办 法 是 对 其 进行 排序 ， 然 后 选取 特定 位 置 的 值 : 


In [173]: large_arr = randn(1000)In [174]: large_arr.sort()In [175]: large_arr[int(0.05 * 
len(large_arr))]# 5% 分 位 数 Out[175]: -1.5791023260896004 


更 多 关于 NumPy 排 序 方法 以 及 诸如 间接 排序 之 类 的 高 级 技术 ， 请 参阅 第 12 章 。 在 pandas 中 还 
可 以 找到 一 些 其 他 跟 排序 有 关 的 数据 操作 (上 比如 根据 一 列 或 多 列 对 表格 型 数据 进行 排序 ) 。 


唯一 化 以 及 其 他 的 集合 逻辑 


NumPy 提 供 了 一 些 针 对 一 维 ndarray 的 基本 集合 运算 。 最 常用 的 可 能 要 数 np.unique 了 ， 它 用 
于 找 出 数组 中 的 唯一 值 并 返回 已 排序 的 结 


In [176]: names = np.array([ Bob', "Joe", "Will,, 'Bob', "Will', 'Joe'", 'Joe'])In [177]: 
np.unique(names)Out[1771:array(['Bob'", 'Joe", "Will], dtype="|S4")In [178]: ints = np.array([3, 
3, 3, 2, 2, 1, 1, 4, 4])In [179]: np.unique(ints )Out[179]: array([1, 2, 3, 4]) 


拿 跟 np.unique 等 价 的 纯 Python 代 码 来 对 比 一 下 : 
In [180]: sorted(set(names))Out[180]: [Bob', 'Joe', "Wil 


函数 np.in1d 用 于 测试 一 个 数组 中 的 值 在 另 一 个 数组 中 的 成 员 资格 ， 返 回 一 个 布尔 型 数 
二 


In [181]: values = np.array([6, 0, 0, 3, 2, 5, 6])In [182]: np.in1d(values, [2, 3, 6])Out[182]: 
array([ True, False, False, True, True, False, True], dtype=bool) 


NumPy 中 的 集合 函数 请 参见 表 4-6。 
表 4-6: 数组 的 集合 运算 


方法 说 明 

unique(x) 计算 x 中 的 唯一 元 素 ， 并 返回 有 序 结果 

intersect1d(x, y) 计算 x 和 y 中 的 公共 元 素 ， 并 返回 有 序 结 : 

union1d{x, y) 计算 x 和 y 的 并 集 ， 并 返回 有 序 结果 

in1d(x, y) 得 到 一 个 表示 “x 的 元 素 是 否 包 含 于 y” 的 布尔 型 数组 

setdiff1d(x, y) 集合 的 差 、， 即 元 素 在 x 中 且 不 在 y 中 

setxor1d(x, y) 集合 的 对 称 差 ， 即 存 在 于 一 个 数组 中 但 不 同时 存在 于 两 个 数组 中 的 
ri 


译注 2 : 简单 点 说 ， 就 是 “ 异 或 ”。 
用 于 数组 的 文件 输入 输出 


NumPy 能 够 读 写 磁 胡 上 的 文本 数据 或 二 进 制 数据 。 后 面 的 章节 将 会 告诉 你 一 些 pandas 中 用 于 
将 表格 型 数据 读 取 到 内 存 的 工具 。 


将 数组 以 二 进 制 格 式 保存 到 磁盘 


A tn i nn 4 数 。 默认 情况 下 ， 数 组 是 以 未 压缩 的 原始 
进 制 格式 保存 在 扩展 名 为 .npy 的 文件 中 的 。 


In [183]: arr = np.arange(10)In [184]: np.save(some array', arr) 


如 果 文 件 路 径 末 尾 没 有 扩展 名 .npy， 则 该 扩展 名 会 被 自动 加 上 。 然 后 就 可 以 通过 np.load 读 取 
磁 胡 上 的 数组 : 


In [185]: np.load('some_array.npy')Out[185]: array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) 


通过 np.savez 可 以 将 多 个 数组 保存 到 一 个 压缩 文件 中 ， 将 数组 以 关键 字 参 数 的 形式 传人 即 
可 : 


In [186]: np.savez('array_archive.npz', a=arr, b=arr) 

加 载 .npz 文 件 时 ， 你 会 得 到 一 个 类 似 字 典 的 对 象 ， 该 对 象 会 对 各 个 数组 进行 延迟 加 载 : 

In [187]: arch = np.load('array_archive.npz')In [188]: arch['b'JOut[188]: array([0, 1, 2, 3, 4, 95， 
6, 7, 8, 9]) 

存 取 文 本 文件 


从 文件 中 加 载 文 本 是 一 个 非常 标准 的 任务 。Python 中 的 文件 读 写 函数 的 格式 很 容易 将 新 手 搞 
量 ， 所 以 我 业主 要 介绍 pandas 中 的 read_csv 和 read_table 函 数 。 有 时 ， 我 们 需要 用 np.loadtxt 
或 更 为 专门 化 的 np.genfromtxt 将 数据 加 载 到 普通 的 NumPy 数 组 中 。 


这 些 酌 数 都 有 许多 选项 可 供 使 用 : 指定 各 种 分 隔 符 、 针 对 特定 列 的 转换 器 图 数 、 需 要 跳 过 的 
行 数 等 。 以 一 个 简单 的 喜 号 分 隔 文 件 (CSV) 为 例 : 


In [191]: !cat array_ex.txt 译 注 
30.580052,0.186730,1.040717,1.1344110.194163,-0.636917,-0.938659,0.124094- 
0.126410,0.268607,-0.695724,0.047428- 
1.484413,0.004176,-0.744203,0.0054872.302869,0.200131,1.670238,-1.881090- 
0.193230,1.047233,0.482803,0.960334 


该 文件 可 以 被 加 载 到 一 个 二 维 数组 中 ， 如 下 所 示 : 


In [192]: arr = np.loadtxt(Carray_ex.txt, delimiter=",')In [193]: arrOut[193]:array([[ 0.5801, 
0.1867, 1.0407, 1.1344], [ 0.1942, -0.6369, -0.9387, 0.1241], [-0.1264, 0.2686, -0.6957， 
0.0474], [-1.4844, 0.0042, -0.7442, 0.0055], [ 2.3029, 0.2001, 1.6702, -1.8811], [-0.1932, 
1.0472, 0.4828, 0.9603]]) 


np.savetxt 执 行 的 是 相反 的 操作 : 将 数组 写 到 以 某 种 分 隔 符 隔 开 的 文本 文件 中 。genfromtxt 跟 
loadtxt 差 不 多 ， 只 不 过 它 面向 的 是 结构 化 数组 和 和 缺失 数据 义理 。 更 多 有 关 结 构 化 数组 的 知 
识 ， 请 参阅 第 12 章 。 


注意 : 更 多 有 关 文 件 读 写 (尤其 是 表格 型 数据 ) 的 知识 ， 请 参阅 本 书后 面 有 关 pandas 和 
DataFrame 对 象 的 章节 。 


译注 3 
: 这 是 Linux 的 ，Windows 得 用 type。 


线性 代数 


线性 代数 〈 如 和 矩阵 乘法 、 矩 阵 分 解 、 行 列 式 以 及 其 他 方 阵 数学 等 ) 是 任何 数组 库 的 重要 组 成 
部 分 。 不 像 某 些 语言 〈 如 MATLAB) ， 通 过 * 对 两 个 二 维 数 组 相 乘 得 到 的 是 一 个 元 素 级 的 积 ， 

而 不 是 一 个 矩阵 点 积 。 因 此 ，NumPy 提 供 了 一 个 用 于 和 矩阵 乘法 的 dot 画 数 (既是 一 个 数组 方法 
也 是 numpy 命 名 空间 中 的 一 个 函数 ) 


In [194]: x = np.array([[1., 2., 3.], [4., 5., 6.]])In [195]: y = np.array([[6., 23.], [-1, 7], [8, 9]])In 
[196]: x In [197]: yOut[196]: Out[197]:array([[ 1., 2., 3.], array([[ 6., 23.], [4., 5., 6.]]) [ -1., 7.],[ 
8., 9.]])In [198]: x.dot(y) # 相当 于 np.dot(x, y)Out[198]:array([[ 28., 64.], [ 67., 181.]]) 


一 个 二 维 数组 跟 一 个 大 小 合适 的 一 维 数 组 的 矩阵 点 积 运算 之 后 将 会 得 到 一 个 一 维 数组 : 
In [199]: np.dot(x, np.ones(3))Out[199]: array([ 6., 15.]) 


numpylinalg 中 有 一 组 标准 的 和 矩阵 分 解 运算 以 及 诸如 求 逆 和 行列 式 之 类 的 东西 。 它 们 跟 
MATLAB 和 R 等 语言 所 使 用 的 是 相同 的 行业 标准 级 Fortran 库 ， 如 BLAS、LAPACK、Intel 
MKL (可 能 有 ， 取 决 于 你 的 NumPy 版 本 ) 等 : 


In [201]: from numpy.linalg import inv, qrln [202]: X = randn(5, 5)In [203]: mat = X.T.dot(X)In 
[204]: inv(mat)Out[204]:array([[ 3.0361, -0.1808, -0.6878, -2.8285, -1.1911], [-0.1808, 
0.5035, 0.1215, 0.6702, 0.0956], [-0.6878, 0.1215, 0.2904, 0.8081, 0.3049], [-2.8285, 
0.6702, 0.8081, 3.4152, 1.1557], [-1.1911, 0.0956, 0.3049, 1.1557, 0.6051]])In [205]: 
mat.dot(inv(mat))Out[205]:array([[ 1., 0., 0., 0., -0.], [ 0., 1., -0., 0., 0.], [0., -0., 1., 0., 0.], [0., 
-0., -0., 1., -0.], [ 0., 0., 0., 0., 1.]])In [206]: 9, r = qr(mat)In [207]: rOut[207]:array([[ -6.9271, 
7.389 , 6.1227, -7.1163, -4.9215], [ 0. , -3.9735, -0.8671, 2.9747, -5.7402], [ 0., 0., 
-10.2681, 1.8909, 1.6079], [ 0., 0., 0., -1.2996, 3.3577], [ 0. , 0. , 0. , 0. , 0.5571]]) 


表 4-7 中 列 出 了 一 些 最 常用 的 线性 代数 函数 。 


意 : Python 科 学 计算 社区 盼望 着 有 朝 一 日 能 实现 矩阵 乘法 的 中 级 运算 符 ， 以 便 能 用 一 种 更 
亮 的 语法 代替 np.dot。 不 过 目前 就 只 能 先 这 样 了 。 


注 
: 亚 
Was 


表 4-7: 常用 的 numpy.linalg 函 数 





函数 说 明 
diag 以 一 维 数组 的 形式 返回 方 阵 的 对 角 线 (或 非 对 角 线 ) 元 素 ， 或 将 一 维 数 组 
转换 为 方 阵 ( 非 对 角 线 元 素 为 0) 
dot 和 矩 阵 末 法 
trace 计算 对 角 线 元 素 的 和 
det 计算 矩阵 行列 式 
eig 计算 方 阵 的 本 征 值 和 本 征 向 量 
inv 计算 方 阵 的 逆 
pinv 计算 矩阵 的 Moore-Penrose 伪 道 
qr 计算 QR 分 解 
svd 计算 奇异 值 分 解 (SVD) 
solve 解 线性 方程 组 Ax =b， 其 中 A 为 一 个 方 隆 
lstsq 计算 Ax = b 的 最 小 二 乘 解 
随机 数 生成 


numpy.random 模 块 对 Python 内 置 的 random 进 行 了 补充 ， 增 加 了 一 些 用 于 高 效 生成 多 种 概率 
分 布 的 样本 值 的 函数 。 例 如 ， 你 可 以 用 normal 来 得 到 一 个 标准 正 态 分 布 的 4x4 样 本 数组 : 


In [208]: samples = np.random.normal(size=(4, 4))In [209]: samplesOut[209]:array([[ 0.1241, 
0.3026, 0.5238, 0.0009], [ 1.3438, -0.7135, -0.8312, -2.3702], [-1.8608, -0.8608, 0.5601, 
-1.2659], [ 0.1198, -1.0635, 0.3329, -2.3594]]) 


而 Python 内 置 的 random 模 块 则 只 能 一 次 生成 一 个 样本 值 。 从 下 面 的 测试 结果 中 可 以 看 出 ， 如 
果 需 要 产生 大 量 样 本 值 ，numpy.random 快 了 不 止 一 个 数量 级 : 


In [210]: from random import normalvariateln [211]: N = 1000000In [212]: %timeit samples = 
[normalvariate(0, 1) for _ in xrange(N)]1 loops, best of 3: 1.33 s per Iloopln [213]: %timeit 
np.random.normal(size=N)10 loops, best of 3: 57.7 ms per loop 


表 4-8 列 出 了 numpy.random 中 的 部 分 函数 。 在 下 一 节 中 ， 我 将 给 出 一 些 利用 这 些 函 数 一 次 性 
生成 大 量 样本 值 的 范例 。 
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表 4-8: 部 分 numpy.random 函 数 


函数 


seed 
permutation 
shuffle 

rand 

randint 
randn 
binomial 
normal 


beta 


说 明 

确定 随机 数 生成 器 的 种 子 

返回 一 个 序列 的 随机 排列 或 返回 一 个 随机 排列 的 范围 

对 一 个 序列 就 地 随机 排列 

产生 均匀 分 布 的 样本 值 

从 给 定 的 上 下 限 范围 内 随机 选取 整数 

产生 正 态 分 布 ( 平 均值 为 0， 标 准 差 为 1) 的 样本 值 ， 类 似 于 MATLAB 接 口 
产生 二 项 分 布 的 样本 值 

产生 正 态 (高 斯 ) 分 布 的 样本 值 

产生 Beta 分 布 的 样本 值 


表 4-8: 部 分 humpy.random 画 数 ( 续 ) 


函数 
chisquare 
gamma 


uniform 


说 明 

产生 卡 方 分 布 的 样本 值 

产生 Gamma 分 布 的 样本 值 

产生 在 [0, 1) 中 均匀 分 布 的 样本 值 


范例 : 随机 漫步 


我 们 通过 模拟 随机 漫步 来 说 明 如 何 运用 数组 运算 。 先 来 看 一 个 简单 的 随机 漫步 的 例子 : 从 0 开 
始 ， 步 长 1 和 一 1 出 现 的 概率 相等 。 我 们 通过 内 置 的 random 模 块 以 纯 Python 的 方式 实现 1000 步 


的 随机 漫步 : 


import randomposition = Owalk = [position]steps = 1000for i in xrange(steps): step = 1 if 


random.randint(0, 1) else -1 position += step walk.append(position) 


图 4-4 是 根据 前 100 个 随机 漫步 值 生成 的 折线 图 。 
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图 4-4 : 简单 的 随机 漫步 
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不 难看 出 ， 这 其 实 就 是 随机 漫步 中 各 步 的 累计 和 ， 可 以 用 一 个 数组 运算 来 实现 。 因 此 ， 我 用 
np.random 模 块 一 次 性 随机 产生 1000 个 “ 掷 硬 币 ? 结 果 〈 即 两 个 数 中 任 选 一 个 ) ， 将 其 分 别 设置 
为 1 或 一 1， 然 后 计算 累计 和 : 


In [215]: nsteps = 1000In [216]: draws = np.random.randint(0, 2, size=nsteps)ln [217]: steps 
= np.where(draws > 0, 1, -1)In [218]: walk = steps.cumsum() 


有 了 这 些 数 据 之 后 ， 我 们 就 可 以 做 一 些 统计 工作 了 ， 上 比如 求 取 最 大 值 和 最 小 值 : 
In [219]: walk.min()Out[219]: -3In [220]: walk.max()Out[220]: 31 


现在 来 看 一 个 复杂 点 的 统计 任务 一 一 首次 穿越 时 间 ， 即 随机 漫步 过 程 中 第 一 次 到 达 某 个 特定 
值 的 时 间 。 假 设 我 们 想 要 知道 本 次 随机 漫步 需要 多 久 才 能 距离 初始 0 点 至 少 10 步 远 〈 任 一 方向 
均 可 ) 。np.abs(walk)>=10 可 以 得 到 一 个 布尔 型 数组 ， i 
而 我 们 想 要 知道 的 是 第 一 个 10 或 一 10 的 索引 。 可 以 用 argmax 来 解决 这 个 问题 ， 它 返回 的 是 该 
布尔 型 数组 第 一 个 最 大 值 的 索引 (True 就 是 最 大 值 ) 


In [221]: (np.abs(walk) >= 10).argmax()Out[221]: 37 


注意 ， 这 里 使 用 argmax 并 不 是 很 高 效 ， 因 为 它 无 论 如 何 都 会 对 数组 进行 完全 打 描 。 在 本 例 
中 ， 只 要 发 现 了 一 个 True， 那 我 们 就 知道 它 是 个 最 大 值 了 。 


一 次 模拟 多 个 随机 漫步 
如 果 你 希望 模拟 多 个 随机 漫步 过 程 (比如 5000 个 ) ， ee 损 氮 点 修改 即 可 生 


成 所 有 的 随机 漫步 过 程 。 只 要 给 numpy.random 的 函数 传 入 一 个 二 元 元 组 就 可 以 产生 一 个 二 维 
数组 ， 然 后 我 们 就 可 以 一 次 性 计算 5000 个 随机 漫步 过 程 Cs 的 累计 和 了 : 


In [222]: nwalks = 5000In [223]: nsteps = 1000In [224]: draws = np.random.randint(0, 2， 
size=(nwalks, nsteps)) #0 或 1In [225]: steps = np.where(draws > 0, 1, -1)In [226]: walks = 
steps.cumsum(1)In [227]: walksOut[227]:array([[ 1, 0, 1, ..., 8, 7, 8], [ 1, 0, -1, ..., 34, 33, 32], 
[1,0,-1,..., 4, 5, 4],..., [1,2,1,...,24,25,26],[1,2,3,..., 14, 13, 14],[-1, -2, -3, ..., -24, 
-23, -22]]) 


现在 ， 我 们 来 计算 所 有 随机 漫步 过 程 的 最 大 值 和 最 小 值 : 
In [228]: walks.max()Out[228]: 138In [229]: walks.min()Out[229]: -133 


导 到 这 些 数 据 之 后 ， 我 们 来 计算 30 或 一 30 的 最 小 穿越 时 间 。 这 里 得 要 稍微 动 一 下 脑筋 ， 因 为 
Sa 我 们 可 以 用 any 方 法 来 对 此 进行 检查 : 


In [230]: hits30 = (np.abs(walks) >= 30).any(1)In [231]: hits30Out[231]: array([False，True， 
False, ..., False, True, False], dtype=bool)In [232]: hits30.sum() # 到 达 30 或 一 30 的 数量 
Out[232]: 3410 


然后 我 们 利用 这 个 布尔 型 数组 选 出 那些 穿越 了 30 (绝对 值 ) 的 随机 漫步 〈 行 ) ， 并 调用 
argmax 在 轴 1 上 获取 穿越 时 间 : 


In [233]: crossing_times = (np.abs(walks[hits30]) >= 30).argmax(1)In [234]: 
crossing_ times.mean()Out[234]: 498.88973607038122 


请 尝试 用 其 他 分 布 方式 得 到 漫步 数据 。 只 需 使 用 不 同 的 随机 数 生 成 画 数 即 可 ， 如 normal 用 于 
生成 指定 均值 和 标准 差 的 正 态 分 布 数据 : 


In [235]: steps = np.random.normal(loc=0, scale=0.25, ...: Size=(nwalks, nsteps)) 
第 5 章 pandas 入 门 


pandas 是 本 书后 续 内 容 的 首选 库 。 它 含有 使 数据 分 析 工 作 变 得 更 快 更 简单 的 高 级 数据 结构 和 
操作 工具 。pandas 是 基于 NumPy 构 建 的 ， 让 以 NumPy 为 中 心 的 应 用 变 得 更 加 简单 。 


先 介 绍 一 点 背景 。 我 是 在 2008 年 早期 还 在 AQR (一 家 定量 投资 管理 公司 ) 任职 期 间 开 始 着 手 
构建 pandas 的 。 那 时 候 ， 没 有 任何 一 个 单独 的 工具 能 够 满足 我 工作 上 的 全 部 需求 : 


.具备 按 轴 自动 或 显 式 数据 对 齐 功能 的 数据 结构 。 这 可 以 防止 许多 由 于 数据 未 对 齐 以 及 来 自 不 
同 数据 源 (索引 方式 不 同 ) 的 数据 而 导致 的 常见 错误 。 


集成 时 间 序列 功能 。 

: 既 能 处 理 时 间 序 列 数 据 也 能 处 理 非 时 间 序 列 数 据 的 数据 结构 。 

数学 运算 和 约 简 (比如 对 某 个 轴 求 和 ) 可 以 根据 不 同 的 元 数据 〈 轴 编号 ) 执行 。 
灵活 处 理 缺 失 数 据 。 

合并 及 其 他 出 现在 常见 数据 库 (例如 基于 SQL 的 ) 中 的 关系 型 运算 。 


我 希望 能 够 在 一 个 地 方 完成 所 有 这 些 事情 ， 最 好 是 一 种 能 进行 通用 软件 开发 的 语言 。Python 
是 一 门 不 错 的 候选 语言 ， 但 那 时 候 它 还 没有 一 组 能 完全 提供 上 述 功能 的 数据 结构 和 工具 。 


在 过 去 的 4 年 中 ，pandas 逐 渐 成 长 为 一 个 非常 大 的 库 ， 它 所 能 解决 的 数据 久 理 问题 已 经 比 我 期 
望 的 要 多 得 多 了 。 但 随 着 其 范围 的 扩大 ， 它 也 逐渐 背离 了 我 最 初 所 期 望 的 简洁 性 和 易 用 性 。 
我 希望 你 在 读 完 本 书 之 后 ， 也 能 像 我 一 样 认为 它 是 一 个 不 可 或 缺 的 工具 。 


在 本 书后 续 部 分 中 ， 我 将 使 用 下 面 这 样 的 pandas 引 入 约定 : 
In [1]: from pandas import Series, DataFrameln [2]: import pandas as pd 


因此 ， 只 要 你 在 代码 中 看 到 pd.， 就 得 想到 这 是 pandas。 因 为 Series 和 DataFrame 用 的 次 数 非 
常 多 ， 所 以 将 其 引入 本 地 命名 空间 中 会 更 方便 。 


pandas 的 数据 结构 介绍 


要 使 用 pandas， 你 首先 就 得 熟悉 它 的 两 个 主要 数据 结构 : Series 和 DataFrame。 虽然 它们 并 
不 能 解决 所 有 问题 ， 但 它们 为 大 多 数 应 用 提供 了 一 种 可 靠 的 、 易 于 使 用 的 基础 。 


Series 


Series 是 一 种 类 似 于 一 维 数 组 的 对 象 ， 它 由 一 组 数据 〈 各 种 NumPy 数 据 类 型 ) 以 及 一 组 与 之 
相关 的 数据 标签 〈 即 索引 ) 组 成 。 仅 由 一 组 数据 即 可 产生 最 简单 的 Series : 


In [4]: obj = Series([4, 7, -5, 3])In [5]: objOut[S]:0 41 72 -53 3 


Series 的 字符 串 表 现形 式 为 : 索引 在 左边 ， 值 在 右边 。 由 于 我 们 没有 为 数据 指定 来 引 ， 于 是 会 
自动 创建 一 个 0 到 N1 (〈N 为 数据 的 长 度 ) 的 整数 型 素 引 。 你 可 以 通过 Series 的 values 和 index 
属性 获取 其 数组 表示 形式 和 索引 对 象 : 


In [6]: obj.valuesOut[6]: array([ 4, 7, -5, 3])In [7]: obj.indexOut[7]: Int64Index([0, 1, 2, 3]) 
通常 ， 我 们 希望 所 创建 的 Series 带 有 一 个 可 以 对 各 个 数据 点 进行 标记 的 索引 : 


In [8]: obj2 = Series([4, 7, -5, 3], index=['d 'b', 'a', 'c'])In [9]: obj2Out[9]:d 4b 7a -5c 3In [10]: 
obj2.indexOut[10]: Index([d, b, a, c], dtype=object) 


普通 NumPy 数 组 相 比 ， 你 可 以 通过 索引 的 方式 选取 Series 中 的 单个 或 一 组 值 : 
In [11]: obj2[aJOut[11]: -SIn [12]: obj2['d'] = 6In [13]: obj2[[c, 'a', 'd']]Out[13]:c 3a -5d 6 


NumPy 数 组 运算 《如 根据 布尔 型 数组 进行 过 滤 、 标 量 乘法 、 应 用 数学 函数 等 ) 都 会 保留 索引 
和 值 之 间 的 链接 : 


In [14]: obj2Out[14]:d 6b 7a -5c 3In [15]: obj2[obj2 > 0] In [16]: obj2 * 2 In [17]: 
np.exp(obj2)Out[15]: Out[16]: Out[17]:d 6 d 12 d 403.428793b 7 b 14 b 1096.633158c 3a 
-10 a 0.006738 c 6 c 20.085537 


还 可 以 料 Series 看 成 是 一 个 定 长 的 有 序 字 典 ， 因 为 它 是 索引 值 到 数据 值 的 一 个 映射 。 它 可 以 用 
在 许多 原本 需要 字典 参数 的 函数 中 : 


In [18]: 'b' in obj2Out[18]: Trueln [19]: 'e' in obj2Out[19]: False 
如 果 数 据 被 存放 在 一 个 Python 字典 中 ， 也 可 以 直接 通过 这 个 字典 来 创建 Series : 


In [20]: sdata = {'Ohio': 35000, "Texas': 71000, 'Oregon': 16000, 'Utah': 5000}In [21]: obj3 = 
Series(sdata)In [22]: obj3Out[22]:Ohio 35000Oregon 16000Texas 71000Utah 5000 


如 果 只 传人 一 个 字典 ， 则 结果 Series 中 的 索引 就 是 原 字 典 的 键 〈《 有 序 排列 ) 。 


In [23]: states = ['California', 'Ohio', 'Oregon'", "Texas']In [24]: obj4 = Series(sdata, 
index=states)ln [25]: obj4Out[25]:California NaNOhio 35000Oregon 16000Texas 71000 


在 这 个 例子 中 ，sdata 中 跟 states 索 引 相 匹配 的 那 3 个 值 会 被 找 出 来 并 放 到 相应 的 位 置 上 ， 但 由 
于 "California" 所 对 应 的 sdata 值 找 不 到 ， 所 以 其 结果 就 为 NaN 〈 即 “ 非 数 字 ”(not a number) ， 
在 pandas 中 ， 它 用 于 表示 缺失 或 NA 值 ) 。 我 将 使 用 缺失 (missing) 或 NA 表示 缺失 数据 。 
pandas 的 isnull 和 notnull 范 数 可 用 于 检测 缺失 数据 : 


In [26]: pd.isnull(obj4) In [27]: pd.notnull(obj4)Out[26]: Out[27]:California True California 
FalseOhio False Ohio TrueOregon False Oregon TrueTexas False Texas True 
Series 也 有 类 似 的 实例 方法 : 

In [28]: obj4.isnull()Out[28]:California TrueOhio FalseOregon FalseTexas False 

我 将 在 本 章 详细 讲解 如 何 处 理 缺失 数据 。 

对 于 许多 应 用 而 言 ，Series 最 重要 的 一 个 功能 是 : 它 在 算术 运算 中 会 自动 对 齐 不 同 索 引 的 数 
据 。 


In [29]: obj3 In [30]: obj4 Out[29]: Out[30]:Ohio 35000 California NaNOregon 16000 Ohio 
35000Texas 71000 Oregon 16000Utah 5000 Texas 71000In [31]: obj3 + 
obj4Out[31]:California NaNOhio 70000Oregon 32000Texas 142000Utah NaN 


数据 对 齐 功 能 将 在 一 个 单独 的 主题 中 讲解 。 
Series 对 象 本 身 及 其 索引 都 有 一 个 name 属 性 ， 该 属性 跟 pandas 其 他 的 关键 功能 关系 非常 密 
切 : 


In [32]: obj4.name = 'population'In [33]: obj4.index.name = 'State'ln [34]: 
obj4Out[34]:stateCalifornia NaNOhio 35000Oregon 16000Texas 71000Name: population 


Series 的 索引 可 以 通过 赋值 的 方式 就 地 修改 : 
In [35]: obj.index = [Bob'， 'Steve,', 'Jeff, 'Ryan']In [36]: objOut[36]:Bob 4Steve 7Jeff -5Ryan 3 
DataFrame 


DataFrame 是 一 个 表格 型 的 数据 结构 ， 它 含有 一 组 有 序 的 列 ， 每 列 可 以 是 不 同 的 值 类 型 ( 数 

值 、 字 符 串 、 布 尔 值 等 ) 。DataFrame 既 有 行 素 引 也 有 列 素 引 ， 它 可 以 被 看 做 由 Series 组 成 的 
字典 〈 共 用 同一 个 索引 ) 。 跟 其 他 类 似 的 数据 结构 相 比 (如 R 的 data.frame) ，DataFrame 中 
面向 行 和 面向 列 的 操作 基本 上 是 平衡 的 。 其 实 ，DataFrame 中 的 数据 是 以 一 个 或 多 个 二 维 块 

存放 的 〈 而 不 是 列表 、 字 典 或 别 的 一 维 数据 结构 ) 。 有 关 DataFrame 内 部 的 技术 细节 远 远 超 

出 了 本 书 所 讨论 的 范围 。 


注意 : 虽然 DataFrame 是 以 二 维 结构 保存 数据 的 ， 但 你 仍然 可 以 轻松 地 将 其 表示 为 更 高 维度 
的 数据 (层次 化 素 引 的 表格 型 结构 ， 这 是 pandas 中 许多 高 级 数据 处 理 功能 的 关键 要 素 ， 我 们 
稍 后 再 来 讨论 这 个 问题 ) 。 

构建 DataFrame 的 办 法 有 很 多 ， 最 常用 的 一 种 是 直接 传人 一 个 由 等 长 列表 或 NumPy 数 组 组 成 
的 字典 : 

data = {'state': [Ohio,，'Ohio，Ohio'，Nevada,， Nevada], year: [2000, 2001, 2002, 2001, 
2002], 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}frame = DataFrame(data) 


结果 DataFrame 会 自动 加 上 索引 ( 跟 Series 一 样 ) ， 且 全 部 列 会 被 有 序 排列 : 


In [38]: frameOut[38]: pop state year0 1.5 Ohio 20001 1.7 Ohio 20012 3.6 Ohio 20023 2.4 
Nevada 20014 2.9 Nevada 2002 


如 果 指 定 了 列 序列 ， 则 DataFrame 的 列 就 会 按照 指定 顺序 进行 排列 : 


In [39]: DataFrame(data, columns=[year，'state'，pop])Out[39]: year state pop0 2000 Ohio 
1.51 2001 Ohio 1.72 2002 Ohio 3.63 2001 Nevada 2.44 2002 Nevada 2.9 


跟 Series 一 样 ， 如 果 传 人 的 列 在 数据 中 找 不 到 ， 就 会 产生 NA 值 : 


In [40]: frame2 = DataFrame(data, columns=[year，Sstate',，'pop',，'debt], .… index=['one,, 
two' three, four, five])ln [41]: frame2Out[41]: year state pop debtone 2000 Ohio 1.5 
NaNtwo 2001 Ohio 1.7 NaNthree 2002 Ohio 3.6 NaNfour 2001 Nevada 2.4 NaNfive 2002 
Nevada 2.9 NaNln [42]: frame2.columnsOut[42]: Index([year state, pop, debt], dtype=object) 


过 类 似 字 典 标 记 的 方式 或 属性 的 方式 ， 可 以 将 DataFrame 的 列 获 取 为 一 个 Series : 


In [43]: frame2['state'] In [44]: frame2.yearOut[43]: Out[44]:one Ohio one 2000two Ohio two 
2001three Ohio three 2002four Nevada four 2001five Nevada five 2002Name: state Name: 
year 


注意 ， 返 回 的 Series 拥 有 原 DataFrame 相 同 的 素 引 ， 且 其 name 属 性 也 已 经 被 相应 地 设置 好 
了 。 行 也 可 以 通过 位 置 或 名 称 的 方式 进行 获取 ， 上 比如 用 索引 字段 ix (〈 稍 后 将 对 此 进行 详细 讲 
解 ) : 


In [45]: frame2.ix[three']oOut[45]:year 2002state Ohiopop 3.6debt NaNName: three 


列 可 以 通过 赋值 的 方式 进行 修改 。 例 如 ， 我 们 可 以 给 那个 空 的 "debt" 列 赋 上 一 个 标量 值 或 一 组 
值 : 


In [46]: frame2[debt] = 16.5In [47]: frame2Out[47]: year state pop debtone 2000 Ohio 1.5 
16.5two 2001 Ohio 1.7 16.5three 2002 Ohio 3.6 16.5four 2001 Nevada 2.4 16.5five 2002 
Nevada 2.9 16.5In [48]: frame2[debt] = np.arange(5.)In [49]: frame2Out[49]: year state pop 
debtone 2000 Ohio 1.5 Otwo 2001 Ohio 1.7 1three 2002 Ohio 3.6 2four 2001 Nevada 2.4 
3five 2002 Nevada 2.9 4 


将 列表 或 数组 赋值 给 某 个 列 时 ， 其 长 度 必 须 跟 DataFrame 的 长 度 相 匹配 。 如 果 赋 值 的 是 一 个 
Series， 就 会 精确 匹配 DataFrame 的 索引 ， 所 有 的 空位 都 将 被 填 上 缺失 值 : 

In [50]: val = Series([-1.2, -1.5, -1.7], index=[two', four, five])In [51]: frame2[debt] = valln 
[52]: frame2Out[52]: year state pop debtone 2000 Ohio 1.5 NaNtwo 2001 Ohio 1.7 -1.2three 
2002 Ohio 3.6 NaNfour 2001 Nevada 2.4 -1.5five 2002 Nevada 2.9 -1.7 


为 不 存在 的 列 赋值 会 创建 出 一 个 新 列 。 关 键 字 del 用 于 删除 列 : 


In [53]: frame2['eastern'] = frame2.state == 'Ohio'In [54]: frame2Out[54]: year state pop debt 
easternone 2000 Ohio 1.5 NaN Truetwo 2001 Ohio 1.7 -1.2 Truethree 2002 Ohio 3.6 NaN 
Truefour 2001 Nevada 2.4 -1.5 Falsefive 2002 Nevada 2.9 -1.7 Falseln [55]: del 
frame2[eastern']ln [56]: frame2.columnsOut[56]: Index([year, state, pop, debt], dtype=object) 


和 警告 : 通过 索引 方式 返回 的 列 只 是 相应 数据 的 视图 而 已 ， 并 不 是 副本 。 因 此 ， 对 返回 的 
Series 所 做 的 任何 就 地 修改 全 都 会 反映 到 源 DataFrame 上 。 通 过 Series 的 copy 方 法 即 可 显 式 地 
复制 列 。 


另 一 种 常见 的 数据 形式 是 伐 套 字典 (也 就 是 字典 的 字典 ) 
In [57]: pop = {Nevada': {2001: 2.4, 2002: 2.9) ....: 'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}} 
如 果 将 它 传 给 DataFrame， 它 就 会 被 解释 为 : 外 层 字 典 的 键 作为 列 ， 内 层 键 则 作为 行 索 引 : 


In [S58]: frame3 = DataFrame(pop)ln [59]: frame3Out[59]: Nevada Ohio2000 NaN 1.52001 
2.4 1.72002 2.9 3.6 


当然 ， 你 也 可 以 对 该 结果 进行 转 置 : 
In [60]: frame3.TOut[60]: 2000 2001 2002Nevada NaN 2.4 2.90hio 1.5 1.7 3.6 
内 层 字 典 的 键 会 被 合并 、 排 序 以 形成 最 终 的 索引 。 如 果 显 式 指 定 了 索引 ， 则 不 会 这 样 : 


In [61]: DataFrame(pop, index=[2001, 2002, 2003])Out[61]: Nevada Ohio2001 2.4 1.72002 
2.9 3.62003 NaN NaN 


由 Series 组 成 的 字典 差不多 也 是 一 样 的 用 法 : 


In [62]: pdata = {Ohio': frame3['Ohio'"][:-1], ....: 'Nevada': frame3[Nevada'][:2]}In [63]: 
DataFrame(pdata)Out[63]: Nevada Ohio2000 NaN 1.52001 2.4 1.7 


表 5-1 列 出 了 DataFrame 构 造 画 数 所 能 接受 的 各 种 数据 。 


表 5-1: 可 以 输入 给 DataFrame 构 造 器 的 数据 


类 型 说 明 

二 维 ndarray 数据 短 阵 ， 还 可 以 传 入 行 标 和 列 标 

由 数组 、 列 表 或 元 组 组 成 的 字典 每 个 序列 会 变 成 DataFrame 的 一 列 。 所 有 序列 的 长 度 
必须 相同 

NumpPy 的 结构 化 /记录 数组 类 似 于 “由 数组 组 成 的 字典 ” 

由 Series 组 成 的 字典 每 个 Series 会 成 为 一 列 。 如 果 没 有 显 式 指定 索引 ， 则 
各 Series 的 索引 会 被 合并 成 结果 的 行 索 引 

由 字典 组 成 的 字典 各 内 层 字 典 会 成 为 一 列 。 键 会 被 合并 成 结果 的 行 索 
引 ， 跟 “由 Series 组 成 的 字典 ”的 情况 - 检 

字典 或 Series 的 列表 各 项 将 会 成 为 DataFrame 的 一 行 。 字 典 键 或 Series 索 引 

on 将 4 会 成 为 DataFrame 的 列 标 

由 列表 或 元 组 组 成 的 列表 类 似 于 “二 维 ndarray” 

男 一 个 DataFrame 该 DataFrame 的 索引 将 会 被 沿用 ， 除 非 显 式 指定 了 其 
他 索引 

NumPy 的 MaskedArray 类 似 于 “二 维 ndarray” 的 情况 ， 只 是 掩 码 值 在 结果 


DataFrame 会 变 成 NA/ 缺 失 值 





如 果 设 置 了 DataFrame 的 index 和 columns 的 name 属 性 ， 则 这 些 信息 也 会 被 显示 出 来 : 


In [64]: frame3.index.name = year; frame3.columns.name = 'state'In [65]: 
frame3Out[65]:state Nevada Ohioyear2000 NaN 1.52001 2.4 1.72002 2.9 3.6 


跟 Series 一 样 ，values 属 性 也 会 以 二 维 ndarray 的 形式 返回 DataFrame 中 的 数据 : 
In [66]: frame3.valuesOut[66]:array([[ nan, 1.5], [ 2.4, 1.7], [ 2.9, 3.6]]) 


如 果 DataFrame 各 列 的 数据 类 型 不 同 ， 则 值 数组 的 数据 类 型 就 会 选用 能 兼容 所 有 列 的 数据 类 
型 : 


In [67]: frame2.valuesOut[67]:array([[2000, Ohio, 1.5, nan], [2001, Ohio, 1.7, -1.2], [2002, 
Ohio, 3.6, nan], [2001, Nevada, 2.4, -1.5], [2002, Nevada, 2.9, -1.7]], dtype=object) 


索引 对 象 


pandas 的 索引 对 象 负责 管理 轴 标 签 和 其 他 元 数据 (比如 轴 名 称 等 ) 。 构 建 Series 或 
DataFrame 时 ， 所 用 到 的 任何 数组 或 其 他 序列 的 标签 都 会 被 转换 成 一 个 Index : 


In [68]: obj = Series(range(3), index=['a', 'b", 'c'])In [69]: index = obj.indexln [70]: 
indexOut[70]: Index([a, b, c], dtype=object)In [71]: index[1:]Out[71]: Index([b, c]， 
dtype=object) 


Index 对 象 是 不 可 修改 的 (immutable) ， 因 此 用 户 不 能 对 其 进行 修改 : 


In [72]: index[1] = "dd Exception 
Traceback (most recent call last) in <module>()----> 1 index[1] = 
'd'/Users/wesm/code/pandas/pandas/core/index.pyc in setitem (self, key, value) 302 def 
setitem(self, key, value): 303 """Disable the setting of values."""--> 304 raise 
Exception(str(self.class) + ' object is immutable') 305 306 def getitem(self, key):Exception: 
object is immutable 


不 可 修改 性 非常 重要 ， 因 为 这 样 才能 使 Index 对 象 在 多 个 数据 结构 之 间 安 全 共享 : 


In [73]: index = pd.Index(np.arange(3))In [74]: obj2 = Series([1.5, -2.5, 0], index=index)ln 
[75]: obj2.index is indexOut[75]: True 


表 5-2 列 出 了 pandas 库 中 内 置 的 Index 类 。 由 于 开发 人 员 的 不 懈 努 力 ，Index 其 至 可 以 被 继承 从 
而 实现 特别 的 轴 索 引 功 能 。 


注意 : 虽然 大 部 分 用 户 都 不 需要 知道 太 多 关于 Index 对 象 的 细节 ， 但 它们 确实 是 pandas 数 据 
模型 的 重要 组 成 部 分 。 


表 5-2: pandas 中 主要 的 Index 对 象 


类 说 明 

Index 最 泛 化 的 Index 对 象 ， 将 轴 标 签 表示 为 一 个 由 Python 对 象 组 成 的 NumPy 
数组 

Int64Index 针对 整数 的 特殊 Index 

Multilndex “层次 化 ”索引 对 象 ， 表 示 单 个 轴 上 的 多 层 索 引 。 可 以 看 做 由 元 组 组 
成 的 数组 


Datetimelndex ”存储 纳 秒 级 时 间 蕉 (用 NumPy 的 datetime64 类 型 表示 ) 
Periodlndex 针对 Period 数 据 (时 间 间 隔 ) 的 特殊 Index 


除了 长 得 像 数组 ，Index 的 功能 也 类 似 一 个 固定 大 小 的 集合 : 


In [76]: frame3Out[76]:state Nevada Ohioyear2000 NaN 1.52001 2.4 1.72002 2.9 3.6In [77]: 
'Ohio' in frame3.columnsOut[77]: Trueln [78]: 2003 in frame3.indexOut[78]: False 


每 个 索引 都 有 一 些 方 法 和 属性 ， 它 们 可 用 于 设置 逻辑 并 回答 有 关 该 索引 所 包含 的 数据 的 常见 
问 题 。 表 5-3 列 出 了 这 些 辑 数 。 


表 5-3: Index 的 方法 和 属性 


方法 说 明 

append 连接 另 一 个 Index 对 象 ， 产 生 一 个 新 的 Index 
diff 计算 差 集 ， 并 得 到 一 个 Index 

intersection 计算 交集 

union 计算 并 集 

isin 计算 一 个 指示 各 值 是 否 都 包含 在 参数 集合 中 的 布尔 型 数组 
delete 删除 索引 i 处 的 元 素 ， 并 得 到 新 的 Index 

drop 删除 传 入 的 值 ， 并 得 到 新 的 Index 

insert 将 元 素 插 入 到 索引 处 ， 并 得 到 新 的 Index 
is_monotonic “” 当 各 元 素 均 大 于 等 于 前 一 个 元 素 时 ， 返 回 True 
is_unique 当 Index 没 有 重复 值 时 ， 返 回 True 

unique 计算 Index 中 唯一 值 的 数组 

基本 功能 


本 节 中 ， 我 将 介绍 操作 Series 和 DataFrame 中 的 数据 的 基本 手段 。 后 续 章 节 将 更 加 深入 地 挖掘 
pandas 在 数据 分 析 和 处 理 方面 的 功能 。 本 书 不 是 pandas 库 的 详尽 文档 ， 主 要 关注 的 是 最 重要 
的 功能 ， 那 些 不 大 常用 的 内 容 (也 就 是 那些 更 深奥 的 内 容 ) 就 交 给 你 自己 去 摸索 吧 。 


重新 索引 


pandas 对 象 的 一 个 重要 方法 是 reindex， 其 作用 是 创建 一 个 适应 新 索引 的 新 对 象 。 以 之 前 的 一 
个 简单 示例 来 说 : 


In [79]: obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'av 'c'])In [80]: objOut[80]:d 4.5b 7.2a 
-5.3c 3.6 


调用 该 Series 的 reindex 将 会 根据 新 索引 进行 重 排 。 如 果 某 个 索引 值 当前 不 存在 ， 就 引入 缺失 
值 : 


In [81]: obj2 = obj.reindex([a, 'b', 'c'", 'd', 'e'])In [82]: obj2Out[82]:a -5.3b 7.2c 3.6d 4.5e NaNln 
[83]: obj.reindex(['a', 'b', 'c'", 'd', 'e'], fill_value=0)Out[83]:a -5.3b 7.2c 3.6d 4.5e 0.0 


对 于 时 间 序 列 这 样 的 有 序数 据 ， 重 新 素 引 时 可 能 需要 做 一 些 插值 处 理 。method 选 项 即 可 达到 
此 目的 ， 例 如 ， 使 用 胡可 以 实现 前 向 值 填 充 : 


In [84]: obj3 = Series(['blue'", 'purple", yellow], index=[0, 2, 4])In [85]: obj3.reindex(range(6)， 
method="ffill' )Out[85]:0 blue1 blue2 purple3 purple4 yellow5 yellow 


表 5-4 列 出 了 可 用 的 method 选 项 。 其 实 我 们 有 时 需要 比 前 向 和 后 向 填充 更 为 精准 的 插值 方式 。 


表 5-4: reindex 的 (插值 ) method 选 项 

参数 说 明 

ffill 或 pad 前 向 填充 (或 搬运 ) 值 

bfill 或 backfill 后 向 填充 (或 搬运 ) 值 

对 于 DataFrame，reindex 可 以 修改 ( 行 ) 索引 、 列 ， 或 两 个 都 修改 。 如 果 仅 传人 一 个 序列 ， 


则 会 重新 索引 行 : 


In [86]: frame = DataFrame(np.arange(9).reshape((3, 3)), index=['a', 'c'", 'd'], ...: columns= 
[Ohio', "Texas', 'California'])In [87]: frameOut[87]: Ohio Texas Californiaa 0 12c 345d67 
8In [88]: frame2 = frame.reindex([a, 'b', 'c", 'd'])In [89]: frame2Out[89]: Ohio Texas 
Californiaa 0 12b NaN NaN NaNc345d678 


使 用 columns 关 键 字 即 可 重新 素 引 列 : 


In [90]: states = [Texas'，Utah' California]ln [91]: frame.reindex(columns=states)Out[91]: 
Texas Utah Californiaa 1NaN 2c 4 NaN 5d 7 NaN 8 


也 可 以 同时 对 行 和 列 进行 重新 索引 ， 而 插值 则 只 能 按 行 应 用 〈 即 轴 0) 


In [92]: frame.reindex(index=[a, 'b", 'c', 'd'], method="ffill, .....: columns=states)Out[92]: 
Texas Utah Californiaa 1 NaN 2b 1 NaN 2c 4 NaN 5d 7 NaN 8 


利用 ix 的 标签 索引 功能 ， 重 新 索引 任务 可 以 变 得 更 简洁 : 


In [93]: frame.ix[['a', 'b", 'c', 'd'], states]Out[93]: Texas Utah Californiaa 1 NaN 2b NaN NaN 
NaNc4 NaN 5d7 NaN 8 


表 5-5 列 出 了 reindex 芳 数 的 各 参数 及 说 明 。 

表 5-5; reindex 函 数 的 参数 

参数 说 明 

index 用 作 索 引 的 新 序列 。 既 可 以 是 Index 实 例 , 也 可 以 是 其 他 序列 型 的 Python 数 
据 结 构 。Index 会 被 完全 使 用 ， 就 像 没有 任何 复制 一 样 

method 插值 (填充 ) 方式 ， 具 体 参数 请 参见 表 5-4 

fill_value ”在 重新 索引 的 过 程 中 ， 需 要 引入 缺失 值 时 使 用 的 替代 值 


limit 前 向 或 后 向 填充 时 的 最 大 填充 量 
level 在 Multilndex 的 指定 级 别 上 匹配 简单 索引 ， 否 则 选取 其 子 集 
copy 默认 为 True， 无 论 如 何 都 复制 ， 如 果 为 False， 则 新 旧 相 等 就 不 复制 


丢弃 指定 轴 上 的 项 


丢弃 某 条 轴 上 的 一 个 或 多 个 项 很 简单 ， 只 要 有 一 个 索引 数组 或 列表 即 可 。 由 于 需要 执行 一 些 
数据 整理 和 集合 逻辑 ， 所 以 drop 方 法 返回 的 是 一 个 在 指定 轴 上 删除 了 指定 值 的 新 对 象 : 


In [94]: obj = Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])In [95]: new_obj = obj.drop('c')In 
[96]: new_objOut[96]:a 0b 1d 3e 4In [97]: obj.drop([d,"c])Out[97]:a Ob 1e 4 


对 于 DataFrame， 可 以 删除 任意 轴 上 的 索引 值 : 


In [98]: data = DataFrame(np.arange(16).reshape((4, 4)), .… index=['Ohio'", 'Colorado', 'Utah,, 
'New York'], ...: columns=['one", 'two', three, four])ln [99]: data.drop([Colorado ， 
Ohio])Out[99]: one two three fourUtah 8 9 10 11New York 12 13 14 15In [100]: 
data.drop('two', axis=1) [101]: data.drop([two', four], axis=1)Out[100]: Out[101]: one three 
four one threeOhio 0 2 3 Ohio 0 2Colorado 4 6 7 Colorado 4 6Utah 8 10 11 Utah 8 10New 
York 12 14 15 New York 12 14 


索引 、 选 取 和 过 滤 


Series 索 引 (obj[...]) 的 工作 方式 类 似 于 NumPy 数 组 的 素 引 ， 只 不 过 Series 的 索引 值 不 只 是 整 
数 。 下 面 是 几 个 例子 : 

In [102]: obj = Series(np.arange(4.), index=['a', 'b', 'c'", 'd])In [103]: obj['b'] In [104]: 
obj[1]Out[103]: 1.0 Out[104]: 1.0In [105]: obj[2:4] In [106]: obj[['b', 'a', 'd]]Out[105]: 
Out[106]:c 2 b 1d 3 a 0 d 3In [107]: obj[[1, 3]] In [108]: obj[obj < 2]Out[107]: Out[108]:b 1 a 
0d3b1 

利用 标签 的 切片 运算 与 普通 的 Python 切片 运算 不 同 ， 其 末端 是 包含 的 (inclusive) 译注 1 : 
In [109]: obj['b':"c]oOut[109]:b 1c 2 

设置 的 方式 也 很 简单 : 

In [110]: obj[b':c'] = SIn [111]: objOut[111]:a Ob 5c 5d 3 

如 你 所 见 ， 对 DataFrame 进 行 素 引 其 实 就 是 获取 一 个 或 多 个 列 : 


In [112]: data = DataFrame(np.arange(16).reshape((4, 4)), ...: index=['Ohio', 'Colorado,, 
'Utah', "New York'], ...: columns=['one,', 'two", 'three', 'four"])In [113]: dataOut[113]: one two 
three fourOhio 0 12 3Colorado 4 5 6 7Utah 8 9 10 11New York 12 13 14 15In [114]: 
data['two'] In [115]: datal['three", 'one']]|Out[114]: Out[115]:Ohio 1 three oneColorado 5 Ohio 2 
OUtah 9 Colorado 6 4New York 13 Utah 10 8Name: two New York 14 12 


这 种 索引 方式 有 几 个 特殊 的 情况 。 首 先 通过 切片 或 布尔 型 数组 选取 行 : 


In [116]: data[:2] In [117]: data[data[three] > 5]Out[116]: Out[117]: one two three four one 
two three fourOhio 0 12 3 Colorado 4 56 7Colorado 4 567 Utah 8 9 10 11 New York 12 13 
14 15 


有 些 读者 可 能 会 认为 这 不 太 合乎 逻辑 ， 但 这 种 语法 的 的 确 确 来 源 于 实践 。 另 一 种 用 法 是 通过 
布尔 型 DataFrame (比如 下 面 这 个 由 标量 比较 运算 得 出 的 ) 进行 索引 : 


In [118]: data < SOut[118]: one two three fourOhio True True True TrueColorado True False 
False FalseUtah False False False FalseNew York False False False Falseln [119]: 
data[data < 5] = OIn [120]: dataOut[120]: one two three fourOhio 0 0 0 0Colorado 056 
7Utah 8 9 10 11New York 12 13 14 15 


这 段 代 码 的 目的 是 使 DataFrame 在 语法 上 更 像 ndarray。 


为 了 在 DataFrame 的 行 上 进行 标签 索引 ， 我 引入 了 专门 的 素 引 字段 x。 它 使 你 可 以 通过 
NumPy 式 的 标记 法 以 及 轴 标 签 从 DataFrame 中 选取 行 和 列 的 子 集 。 之 前 便 提 到 过 ， 这 也 是 一 
种 重新 索引 的 简单 手段 : 


In [121]: data.ix['Colorado'", [two', 'three'"]]Out[121]:two 5three 6Name: Coloradoln [122]: 
data.ix[['Colorado', 'Utah', [3, 0, 1]]Out[122]: four one twoColorado 7 0 5Utah 11 8 9In [123]: 
data.ix[2] In [124]: data.ix[:'Utah', 'two']JOut[123]: Out[124]:one 8 Ohio Otwo 9 Colorado 
sthree 10 Utah 9four 11 Name: twoName: Utahln [125]: data.ix[data.three > 5, :3]Out[125]: 
one two threeColorado 0 5 6Utah 8 9 10New York 12 13 14 


也 就 是 说 ， 对 pandas 对 象 中 的 数据 的 选取 和 重 排 方式 有 很 多 。 表 5-6 简 单 总 结 了 针对 
DataFrame 数 据 的 大 部 分 选取 和 重 排 方 式 。 在 使 用 层次 化 索引 时 还 能 用 到 一 些 别 的 办 法 〈 稍 
后 就 会 讲 到 ) o 


注意 : 在 设计 pandas 时 ， 我 觉得 必须 输入 frame[:,col] 才 能 选取 列 实在 有 些 味 (而 且 还 很 容易 
出 错 ) ， 因 为 列 的 选取 是 一 种 最 常见 的 操作 。 于 是 ， 我 就 把 所 有 的 标签 索引 功能 都 放 到 ix 中 
Te 
表 5-6: DataFrame 的 索引 选项 
类 型 说 明 
obj[val] 选取 DataFrame 的 单个 列 或 一 组 列 。 在 一 些 特殊 情况 下 会 

比较 便利 : 布尔 型 数组 (过滤 行 ) 、 切 片 ( 行 切片 ) 、 布 

尔 型 DataFrame (根据 条 件 设置 值 

obj.ix[val] 选取 DataFrame 的 单个 行 或 一 组 行 


表 5-6: DataFrame 的 索引 选项 ( 续 ) 


类 型 说 明 

obj.ix[:, val] 选取 单个 列 或 列子 集 

obj.ix[val1, val2] 同时 选取 行 和 列 

reindex 方 法 将 一 个 或 多 个 轴 匹 配 到 新 索引 

xs 方 法 根据 标签 选取 单行 或 单列 ， 并 返回 一 个 Series 
icol、irow 方 法 根据 整数 位 置 选取 单列 或 单行 ， 并 返回 一 个 Series 


get_value，set_value 方 法 ”根据 行 标签 和 列 标签 选取 单个 值 。“ a 


译注 2 : get_value 方 法 是 选取 ，set-value 方 法 是 设置 。 
算术 运算 和 数据 对 齐 


pandas 最 重要 的 一 个 功能 是 ， 它 可 以 对 不 同 索引 的 对 象 进行 算术 运算 。 在 将 对 象 相 加 时 ， 如 
果 存 在 不 同 的 索引 对 ， 则 结果 的 索引 就 是 该 索引 对 的 并 集 。 我 们 来 看 一 个 简单 的 例子 : 


In [126]: s1 = Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'"])In [127]: s2 = Series([-2.1, 3.6, 
-1.5, 4, 3.1], index=['a', 'c', 'e', f, 'g'])In [128]: s1 In [129]: s2Out[128]: Out[129]:a 7.3 a -2.1c 
-2.5 C3.6d 3.4e -1.5e 1.5f4.0 g 3.1 


将 它们 相 加 就 会 产生 : 
In [130]: s1 + s2Out[130]:a 5.2c 1.1d NaNe 0.0f NaNg NaN 


自动 的 数据 对 章 操作 在 不 重 怠 的 索引 多 引入 了 NA 人 和 值 译注 3。 人 缺失 值 会 在 算术 运算 过 程 中 传 
播 。 


对 于 DataFrame， 对 齐 操作 会 同时 发 生 在 行 和 列 上 : 


In [131]: df1 = DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'), ...: index= 
[Ohio', "Texas'", 'Colorado'])In [132]: df2 = DataFrame(np.arange(12.).reshape((4, 3)), 
columns=list(bde'), ...: index=['Utah', 'Ohio', "Texas', 'Oregon'])In [133]: df1 In [134]: 
df2Out[133]: Out[134]: bc d b d eOhio 0 12 Utah 0 12Texas 345 Ohio 345Colorado 678 
Texas 6 7 8 Oregon 9 10 11 


把 它们 相 加 后 将 会 返回 一 个 新 的 DataFrame， 其 索引 和 列 为 原来 那 两 个 DataFrame 的 并 集 : 


In [135]: df1 + df2Out[135]: b c d eColorado NaN NaN NaN NaNOhio 3 NaN 6 NaNOregon 
NaN NaN NaN NaNTexas 9 NaN 12 NaNUtah NaN NaN NaN NaN 


在 算术 方法 中 填充 值 


在 对 不 同 索 引 的 对 象 进行 算术 运算 时 ， 你 可 能 希望 当 一 个 对 象 中 某 个 轴 标 签 在 另 一 个 对 象 中 
找 不 到 时 填充 一 个 特殊 值 〈 比 如 0) 

In [136]: df1 = DataFrame(np.arange(12.).reshape((3, 4)), columns=list('‘abcd'"))In [137]: df2 
= DataFrame(np.arange(20.).reshape((4, 5)), columns=list(abcde'))In [138]: df1 In [139]: 
df2Out[138]: Out[139]:abcdabcde001230012341456715678928910112 
10 11 12 13 14 3 15 16 17 18 19 

将 它们 相 加 时 ， 没 有 重 受 的 位 置 就 会 产生 NA 值 : 

In [140]: df1 + df2Out[140]:abcde00246NaN19111315NaN2 18202224NaN3 
NaN NaN NaN NaN NaN 


使 用 df1 的 add 方 法 ， 传 入 df2 以 及 一 个 仙 _value 参 数 : 


In [141]: df1.add(df2, fill_ value=0)Out[141]: abcde0024641911131592 18202224 
143 15 16 17 18 19 


与 此 类 似 ， 在 对 Series 或 DataFrame 重 新 素 引 时 ， 也 可 以 指定 一 个 填充 值 : 


In [142]: df1.reindex(columns=df2.columns, fill_value=0)Out[142]:abcde0012301456 
7028910110 


表 5-7: 灵活 的 算术 万 法 

方法 ”说明 

add 用 于 加 法 (+) 的 方法 
sub ”用 于 减法 (一) 的 方法 
div ”用 于 除法 (/) 的 方法 
mul “用 于 乘法 (*) 的 方法 


DataFrame 和 Series 之 间 的 运算 


跟 NumPy 数 组 一 样 ，DataFrame 和 Series 之 间 算 术 运 算 也 是 有 明确 规定 的 。 先 来 看 一 个 具有 
启发 性 的 例子 ， 计 算 一 个 二 维 数 组 与 其 某 行 之 间 的 差 : 


In [143]: arr = np.arange(12.).reshape((3, 4))In [144]: arrOut[144]:array([[ 0., 1., 2., 3.], [ 4.， 
5., 6., 7.], [8., 9., 10., 11.]])In [145]: arr[O]Out[145]: array([ 0., 1., 2., 3.])In [146]: arr - 
arr[O]Out[146]:array([[ 0., 0., 0., 0.], [ 4., 4., 4., 4.], [ 8., 8., 8., 8.]]) 


这 就 叫做 广播 (broadcasting) ， 第 12 章 将 对 此 进行 详细 讲解 。DataFrame 和 Series 之 间 的 运 
算 差不多 也 是 如 此 : 


In [147]: frame = DataFrame(np.arange(12.).reshape((4, 3)), columns=list(bde'), ...: index= 
[Utah', 'Ohio', 'Texas', 'Oregon'])In [148]: series = frame.ix[0]In [149]: frame In [150]: 
seriesOut[149]: Out[150]: b de b OUtah 0 12d 10hio 3 4 5 e 2Texas 6 7 8 Name: 
UtahOregon 9 10 11 


默认 情况 下 ，DataFrame 和 Series 之 间 的 算术 运算 会 将 Series 的 索引 匹配 到 DataFrame 的 列 ， 
然后 治 着 行 一 直 向 下 广播 : 


In [151]: frame - seriesOut[151]: b d eUtah 0 0 00hio 3 3 3Texas 66 6Oregon 999 


如 果 某 个 索引 值 在 DataFrame 的 列 或 Series 的 索引 中 找 不 到 ， 则 参与 运算 的 两 个 对 象 就 会 被 重 
新 素 引 以 形成 并 集 : 


In [152]: series2 = Series(range(3), index=[b', 'e, f])In [153]: frame + series2Out[153]:b de 
fUtah 0 NaN 3 NaNOhio 3 NaN 6 NaNTexas 6 NaN 9 NaNOregon 9 NaN 12 NaN 


如 果 你 希望 匹配 行 且 在 列 上 广播 ， 则 必须 使 用 算术 运算 方法 。 例 如 : 


In [154]: series3 = frame[d']ln [155]: frame In [156]: series3Out[155]: Out[156]: b d e Utah 
1Utah 0 12 Ohio 4Ohio 3 4 5 Texas 7Texas 6 7 8 Oregon 10Oregon 9 10 11 Name: dln 
[157]: frame.sub(series3, axis=0)Out[157]: b d eUtah -1 0 1Ohio -1 0 1Texas -1 0 1Oregon 
-101 


传人 的 轴 号 就 是 希望 匹配 的 轴 。 在 本 例 中 ， 我 们 的 目的 是 匹配 DataFrame 的 行 素 引 并 进行 广 
播 。 译 注 4 


郴 数 应 用 和 了 映射 
NumPy 的 ufuncs (元 素 级 数组 方法 ) 也 可 用 于 操作 pandas 对 象 : 


In [158]: frame = DataFrame(np.random.randn(4, 3), columns=list(bde ), .… index=['Utah,, 
'Ohio'", 'Texas'", 'Oregon'])In [159]: frame In [160]: np.abs(frame)Out[159]: Out[160]: bde bd 
eUtah -0.204708 0.478943 -0.519439 Utah 0.204708 0.478943 0.519439Ohio -0.555730 
1.965781 1.393406 Ohio 0.555730 1.965781 1.393406Texas 0.092908 0.281746 0.769023 
Texas 0.092908 0.281746 0.769023Oregon 1.246435 1.007189 -1.296221 Oregon 
1.246435 1.007189 1.296221 


另 一 个 常见 的 操作 是 ， 将 函数 应 用 到 由 各 列 或 行 所 形成 的 一 维 数 组 上 。DataFrame 的 apply 方 
法 即 可 实现 此 功能 : 
In [161]: f= lambda x: x.max() - x.min()In [162]: frame.apply(f) In [163]: frame.apply(f， 


axis=1)Out[162]: Out[163]:b 1.802165 Utah 0.998382d 1.684034 Ohio 2.521511e 2.689627 
Texas 0.676115 Oregon 2.542656 


许多 最 为 常见 的 数组 统计 功能 都 被 实现 成 DataFrame 的 方法 (如 sum 和 mean) ， 因 此 无 需 使 
用 apply 方 法 。 


除 标量 值 外 ， 传 递 给 apply 的 范 数 还 可 以 返回 由 多 个 值 组 成 的 Series : 


In [164]: def f(x): ...: return Series([x.min(), x.max()], index=[min,， max])lIn [165]: 
frame.apply(f) b d emin -0.555730 0.281746 -1.296221max 1.246435 1.965781 1.393406 


此 外 ， 元 素 级 的 Python 本 数 也 是 可 以 用 的 。 假 如 你 想得到 frame 中 各 个 浮 点 值 的 格式 化 字符 
串 ， 使 用 applymap 即 可 : 


In [166]: format = lambda x: '%.2f % xln [167]: frame.applymap(format)Out[167]: b d eUtah 
-0.20 0.48 -0.52Ohio -0.56 1.97 1.39Texas 0.09 0.28 0.77Oregon 1.25 1.01 -1.30 


之 所 以 叫做 applymap， 是 因为 Series 有 一 个 用 于 应 用 元 素 级 本 数 的 map 方 法 : 


In [168]: frame[re].map(format)Out[168]:Utah -0.52Ohio 1.39Texas 0.77Oregon -1.30Name: 
e 


排序 和 排名 


根据 条 件 对 数据 集 排序 (sorting) 也 是 一 种 重要 的 内 置 运 算 。 要 对 行 或 列 素 引 进行 排序 ( 按 
字典 顺序 ) ， 可 使 用 sort_index 方 法 ， 它 将 返回 一 个 已 排序 的 新 对 象 : 


In [169]: obj = Series(range(4), index=[d, 'a", 'b', 'c'])In [170]: obj.sort_index()Out[170]:a 1b 
2c 3d 0 


而 对 于 DataFrame， 则 可 以 根据 任意 一 个 轴 上 的 索引 进行 排序 : 


In [171]: frame = DataFrame(np.arange(8).reshape((2, 4)), index=[three'，one], …: 
columns=['d,'a', 'b'", 'c'"])In [172]: frame.sort_index() In [173]: 
frame.sort_index(axis=1)Out[172]: Out[173]: dabcabcdone4567 three1230three01 
23one5674 


数据 默认 是 按 升序 排序 的 ， 但 也 可 以 降序 排序 : 


In [174]: frame.sort index(axis=1, ascending=False)Out[174]: dcbathree0321one476 
5 


若 要 按 值 对 Series 进 行 排序 ， 可 使 用 其 order 方 法 : 
In [175]: obj = Series([4, 7, -3, 2])In [176]: obj.order()Out[176]:2 -33 20 41 7 
在 排序 时 ， 任 何 缺失 值 默 认 都 会 被 放 到 Series 的 末尾 : 


In [177]: obj = Series([4, np.nan, 7, np.nan, -3, 2])In [178]: obj.order()Out[178]:4 -35 20 42 71 
NaN3 NaN 


在 DataFrame 上 ， 你 可 能 希望 根据 一 个 或 多 个 列 中 的 值 进行 排序 。 将 一 个 或 多 个 列 的 名 字 传 
递 给 by 选项 即 可 达到 该 目的 : 


In [179]: frame = DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})In [180]: frame In [181]: 
frame.sort_index(by='b')Out[180]: Out[181]:abab00420-311731220-30043121 
17 


要 根据 多 个 列 进行 排序 ， 传 入 名 称 的 列表 即 可 : 
In [182]: frame.sort_index(by=['a', 'b'])Out[182]: a b20 -3004312117 


排名 (ranking) 跟 排序 关系 密切 ， 且 它 会 增设 一 个 排名 值 〈( 从 1 开始 ， 一 直到 数组 中 有 效 数 据 
的 数量 ) 。 它 跟 humpy.argsort 产 生 的 间接 排序 素 引 差不多 ， 只 不 过 它 可 以 根据 某 种 规则 破坏 
平 级 关系 。 接 下 来 介绍 Series 和 DataFrame 的 rank 方 法 。 默 认 情 况 下 ，rank 是 通过 “为 各 组 分 


配 一 个 平均 排名 ”的 方式 破坏 平 级 关系 的 : 


In [183]: obj = Series([7, -5, 7, 4, 2, 0, 4])In [184]: obj.rank()Out[184]:0 6.51 1.02 6.53 4.54 
3.05 2.06 4.5 


也 可 以 根据 值 在 原 数 据 中 出 现 的 顺序 给 出 排名 译注 5 : 

In [185]: obj.rank(method='first')Out[185]:0 61 12 73 44 35 26 5 

当然 ， 你 也 可 以 按 降序 进行 排名 : 

In [186]: obj.rank(ascending=False, method='max')Out[186]:0 21 72 23 44 55 66 4 

表 5-8 列 出 了 所 有 用 于 破坏 平 级 关系 的 method 选 项 。DataFrame 可 以 在 行 或 列 上 计算 排名 : 


In [187]: frame = DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1], ...: 'c': [-2, 5, 8, -2.5]})In [188]: 
frame In [189]: frame.rank(axis=1)Out[188]: Out[189]:abcabc004.3-200231117.0 
5.0113220-3.08.02213312.0-2.53231 


表 5-8: 排名 时 用 于 破坏 平 级 关系 的 method 选 项 


method 说 明 
'average' 默认 : 在 相等 分 组 中 ， 为 各 个 值 分 配 平均 排名 
min' 使 用 整个 分 组 的 最 小 排名 
max' 使 用 整个 分 组 的 最 大 排名 
"first' 按 值 在 原始 数据 中 的 出 现 顺 序 分 配 排名 
带 有 重复 值 的 轴 索 引 


直到 目前 为 止 ， 我 所 介绍 的 所 有 范例 都 有 着 唯一 的 轴 标签 (索引 值 ) 。 虽 然 许多 pandas 函 数 
(如 reindex) 都 要 求 标签 唯一 ， 但 这 并 不 是 强制 性 的 。 我 们 来 看 看 下 面 这 个 简单 的 带 有 重复 
索引 值 的 Series : 


In [190]: obj = Series(range(5), index=['a', 'a", 'b', 'b', 'c"])In [191]: objOut[191]:a 0a 1b 2b 3c 4 
索引 的 is_unique 属 性 可 以 告诉 你 它 的 值 是 否 是 唯一 的 : 
In [192]: obj.index.is_uniqueOut[192]: False 


对 于 带 有 重复 值 的 索引 ， 数 据 选取 的 行为 将 会 有 些 不 同 。 如 果 某 个 索引 对 应 多 个 值 ， 则 返回 
一 个 Series ; 而 对 应 单个 值 的 ， 则 返回 一 个 标量 值 。 


In [193]: obj['a] In [194]: obj['c]Out[193]: Out[194]: 4a 0a 1 
对 DataFrame 的 行进 行 素 引 时 也 是 如 此 : 


In [195]: df = DataFrame(np.random.randn(4, 3), index=['a", 'a', 'b', 'b'])In [196]: dfOut[196]: 0 
1 2a 0.274992 0.228913 1.352917a 0.886429 -2.001637 -0.371843b 1.669025 -0.438570 
-0.539741b 0.476985 3.248944 -1.021228In [197]: df.ix['b']Out[197]: 0 1 2b 1.669025 


-0.438570 -0.539741b 0.476985 3.248944 -1.021228 

译注 1 

: 即 封闭 区 间 。 

译注 3 

: 由 于 本 书 中 多 次 出 现 “ 非 重 登 ”(overlapping) 这 个 词 ， 所 以 需要 简单 说 明 一 下 。 例 如 ,“ 飞 
机 场 " 跟 “拖拉 机 "都 有 个 "机 ”， 于 是 可 以 认为 这 两 个 字符 串 是 “ 重 营 "的 ;“ 高 富 籼 "和 " 矮 穷 挫 "的 情 


况 自然 就 是 “ 非 重重 "了 了。 注意， 虽然 这 里 没有 任何 顺序 和 连续 的 概念 ， 但 有 些 地 方 是 需要 考虑 
顺序 和 连续 的 。 

译注 4 

: 这 里 需要 补充 说 明 一 下 ， 作 者 反复 强调 “广播 "会 在 第 12 章 介绍 ， 所 以 如 果真 看 不 懂 这 里 就 等 
到 12 章 学 完 再 看 不 迟 。 译 者 已 经 尽量 把 原文 扩展 的 描述 扩展 开 ， 但 是 文字 描述 始终 没有 图 形 
更 具体 。 例 如 ， 你 可 以 打开 一 个 Excel， 随 意 找 一 排 单 元 格 并 输入 一 些 文字 (注意 是 一 排 ) ， 

然后 选中 这 些 单 元 格 ， 将 鼠标 移 至 选区 在 下角， 当 指 针 变 为 加 号 时 ， 按 住 向 下 拉 几 行 ， 这 就 

是 “ 治 行 向 下 广播 "。 


译注 5 
: 类 似 于 稳定 排序 。 
汇总 和 计算 描述 统计 


pandas 对 象 拥 有 一 组 常用 的 数学 和 统计 方法 。 它 们 大 部 分 都 属于 约 简 和 汇总 统计 ， 用 于 从 
Series 中 提取 单个 值 (如 sum 或 mean) 或 从 DataFrame 的 行 或 列 中 提取 一 个 Series。 跟 对 应 
的 NumPy 数 组 方法 相 比 ， 它 们 都 是 基于 没有 缺失 数据 的 假设 而 构建 的 。 接 下 来 看 一 个 简单 的 


DataFrame : 


In [198]: df = DataFrame([[1.4, np.nan], [7.1, -4.5], … [np.nan, np.nan], [0.75, -1.3]], ...: 
index=['a', 'b', 'c', 'd'], ...: columns=['one'", 'two'])In [199]: dfOut[199]: one twoa 1.40 NaNb 
7.10 -4.5c NaN NaNd 0.75 -1.3 


调用 DataFrame 的 sum 方 法 将 会 返回 一 个 含有 列 小 计 的 Series : 
In [200]: df.sum()Out[200]:one 9.25two -5.80 

传人 axis=1 将 会 按 行 进行 求 和 运算 : 

In [201]: df.sum(axis=1)Out[201]:a 1.40b 2.60c NaNd -0.55 


NA 值 会 自动 被 排除 ， 除 非 整个 切片 (这 里 指 的 是 行 或 列 ) 都 是 NA。 通 过 skipna 选 项 可 以 禁用 
该 功能 : 


In [202]: df.mean(axis=1, skipna=False)Out[202]:a NaNb 1.300c NaNd -0.275 


表 5-9 列 出 了 这 些 约 简 方 法 的 常用 选项 。 
表 5-9: 约 简 方 法 的 选项 


选项 说 明 

axis 约 简 的 轴 。DataFrame 的 行 用 0， 列 用 1 

skipna 排除 缺失 值 ， 默 认 值 为 True 

level 如 果 轴 是 层次 化 索引 的 〈 即 Multilndex) ， 则 根据 level 分 组 约 简 


有 些 方 法 (如 idxmin 和 idxmax) 返回 的 是 间接 统计 (比如 达到 最 小 值 或 最 大 值 的 索引 ) 
In [203]: dfidxmax()Out[203]:one btwo d 

另 一 些 方法 则 是 累计 型 的 : 

In [204]: df.cumsum()Out[204]: one twoa 1.40 NaNb 8.50 -4.5c NaN NaNd 9.25 -5.8 


还 有 一 种 方法 ， 它 既 不 是 约 简 型 也 不 是 累计 型 。describe 就 是 一 个 例子 ， 它 用 于 一 次 性 产生 多 
个 汇总 统计 : 


In [205]: df.describe()Out[205]: one twocount 3.000000 2.000000mean 3.083333 
-2.900000std 3.493685 2.262742min 0.750000 -4.50000025% 1.075000 -3.70000050% 
1.400000 -2.90000075% 4.250000 -2.100000max 7.100000 -1.300000 


对 于 非 数 值 型 数据 ，describe 会 产生 另外 一 种 汇总 统计 : 


In [206]: obj = Series([a', 'a, 'b', 'c]* 4)In [207]: obj.describe()Out[207]:count 16unique 3top 
afreq 8 


表 5-10 列 出 了 所 有 和 与 描述 统计 相关 的 方法 。 
表 5-10: 描述 和 汇总 统计 


方法 说 明 

count 非 NA 值 的 数量 

describe 针对 Series 或 各 DataFrame 列 计算 汇总 统计 
min, max 计算 最 小 值 和 最 大 值 

argmin、argmax 计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 位 置 (整数 ) 
idxmin、idxmax 计算 能 够 获取 到 最 小 值 和 最 大 值 的 索引 值 
quantile 计算 样本 的 分 位 数 (0 到 1 ) 

sum 值 的 总 和 

mean 值 的 平均 数 

median 值 的 算术 中 位 数 (50% 分 位 数 ) 

mad 根据 平均 值 计 算 平均 绝对 离 差 

var 样本 值 的 方 闫 


std 样本 值 的 标准 六 


表 5-10: 描述 和 汇总 统计 ( 续 ) 





方法 说 明 
skew 样本 值 的 偏 度 (三 阶 和 矩 ) 
kurt 样本 值 的 峰 度 〈 四 阶 答 ) 
cumsum 样本 值 的 累计 和 
cummin、cummax 样本 值 的 累计 最 大 值 和 累计 最 小 值 
cumprod 样本 值 的 紧 计 积 
diff 计算 一 阶 差 分 (对 时 间 序 列 很 有 用 ) 
pct_change 计算 百分数 变化 
相关 系数 与 协 方差 


有 些 汇总 统计 (如 相关 系数 和 协 方 差 ) 是 通过 参数 对 计算 出 来 的 。 我 们 来 看 几 个 
DataFrame， 它 们 的 数据 来 自 YahoolFinance 的 股票 价格 和 成 交 量 : 


import pandas.io.data as weball_data = {}for ticker in [AAPL',，IBM'， 'MSFT'", 'GOOGT: 
all_datalticker] = web.get _ data yahool(ticker, '1/1/2000", "1/1/2010')price = DataFrame(t{tic: 
data['Adj Close] for tic, data in all_data.iteritems()})volume = DataFrame!(t{tic: data[ Volume ] 
for tic, data in all_data.iteritems())) 


接 下 来 计算 价格 的 百分数 变化 : 


In [209]: returns = price.pct_change()In [210]: returns.tail()Out[210]: AAPL GOOG IBM 
MSFTDate2009-12-24 0.034339 0.011117 0.004420 0.0027472009-12-28 0.012294 
0.007098 0.013282 0.0054792009-12-29 -0.011861 -0.005571 -0.003474 0.0068122009-12- 
30 0.012147 0.005376 0.005468 -0.0135322009-12-31 -0.004300 -0.004416 -0.012609 
-0.015432 


Series 的 corr 方 法 用 于 计算 两 个 Series 中 重 琶 的 、 非 NA 的 、 按 索引 对 齐 的 值 的 相关 系数 。 与 此 
类 似 ，cov 用 于 计算 协 方差 : 


In [211]: returns.MSFT.corr(returns.IBM)Out[211]: 0.49609291822168838In [212]: 
returns.MSFT.cov(returns.IBM)Out[212]: 0.00021600332437329015 


DataFrame 的 corr 和 cov 方 法 将 以 DataFrame 的 形式 返回 完整 的 相关 系数 或 协 方差 矩阵 : 


In [213]: returns.corr()Out[213]: AAPL GOOG IBM MSFTAAPL 1.000000 0.470660 0.410648 
0.424550GOOG 0.470660 1.000000 0.390692 0.443334IBM 0.410648 0.390692 1.000000 
0.496093MSFT 0.424550 0.443334 0.496093 1.000000In [214]: returns.cov()Out[214]: 
AAPL GOOG IBM MSFTAAPL 0.001028 0.000303 0.000252 0.000309GOOG 0.000303 
0.000580 0.000142 0.000205IBM 0.000252 0.000142 0.000367 0.000216MSFT 0.000309 
0.000205 0.000216 0.000516 


利用 DataFrame 的 corrwith 方 法 ， 你 可 以 计算 其 列 或 行 跟 另 一 个 Series 或 DataFrame 之 间 的 相 
关系 数 。 传 人 一 个 Series 将 会 返回 一 个 相关 系数 值 Series (针对 各 列 进行 计算 ) 


In [215]: returns.corrwith(returns.IBM)Out[215]:AAPL 0.410648GOOG 0.390692IBM 
1.000000MSFT 0.496093 


传 入 一 个 DataFrame 则 会 计算 按 列 名 配对 的 相关 系数 。 这 里 ， 我 计算 百分比 变化 与 成 交 量 的 
相关 系数 : 


In [216]: returns.corrwith(volume)Out[216]:AAPL -0.057461GOOG 0.062644IBM 
-0.007900MSFT -0.014175 


传 入 axis=1 即 可 按 行 进行 计算 。 无 论 如 何 ， 在 计算 相关 系数 之 前 ， 所 有 的 数据 项 都 会 按 标签 对 


齐 。 

唯一 值 、 值 计数 以 及 成 员 资 格 

还 有 一 类 方法 可 以 从 一 维 Series 的 值 中 抽取 信息 。 以 下 面 这 个 Series 为 例 : 

In [217]: obj = Series(['c', 'a', 'd', 'a', 'a'’, 'b', 'b', 'c', 'c") 

第 一 个 函数 是 unique， 它 可 以 得 到 Series 中 的 唯一 值 数组 : 

In [218]: uniques = obj.unique()In [219]: uniquesOut[219]: array([c, a, d, b], dtype=object) 


返回 的 唯一 值 是 未 排序 的 ， 如 果 需 要 的 话 ， 可 以 对 结果 再 次 进行 排序 (uniques.sort()) 。 
value_counts 用 于 计算 一 个 Series 中 各 值 出 现 的 频率 : 


In [220]: obj.value_counts()Out[220]:c 3a 3b 2d 1 


为 了 便于 查看 ， 结 果 Series 是 按 值 频率 降序 排列 的 。value_counts 还 是 一 个 顶级 pandas 方 
法 ， 可 用 于 任何 数组 或 序列 : 


In [221]: pd.value_counts(obj.values, sort=False)Out[221]:a 3b 2c 3d 1 


最 后 是 isin， 它 用 于 判断 矢量 化 集合 的 成 员 资 格 ， 可 用 于 选取 Series 中 或 DataFrame 列 中 数据 
的 子 集 : 


In [222]: mask = obj.isin(['b", 'c"])In [223]: mask In [224]: obj[mask]Out[223]: Out[224]:0 True 
0 c1 False 5 b2 False 6 b3 False 7 c4 False 8 c5 True6 True7 True8 True 


表 5-11 给 出 了 这 几 个 方法 的 一 些 参考 信息 。 
表 5-11: 唯一 值 . 值 计 数 、 成 员 资 格 方法 


方法 说 明 
isin 计算 一 个 表示 “Series 各 值 是 否 包 含 于 传 入 的 值 序列 中 ”的 布尔 型 数组 
unique 计算 series 中 的 唯一 值 数 组 ， 按 发 现 的 顺序 返回 


value_counts ”返回 一 个 Series， 其 党 引 为 唯一 值 ， 其 值 为 频率 ， 按 计数 值 降序 排列 


有 时 ， 你 可 能 希望 得 到 DataFrame 中 多 个 相关 列 的 一 张 柱状 图 。 例 如 : 


In [225]: data = DataFrame({Qu1': [1 3, 4, 3, 4], .Qu2 [2, 3, 1, 2, 3], ...: 'Qu3': [1, 5, 2, 4, 
4]})In [226]: dataOut[226]: Qu1 Qu2 Qu30 1211335241233244434 


将 pandas.value_counts 传 给 该 DataFrame 的 apply 函 数 ， 就 会 出 现 : 


In [227]: result = data.apply(pd.value_counts).fillna(0)In [228]: resultOut[228]: Qu1 Qu2 
Qu311112021322042025001 


处 理 缺 失 数 据 


缺失 数据 (missing data) 在 大 部 分 数据 分 析 应 用 中 都 很 常见 。pandas 的 设计 目标 之 一 就 是 让 
缺失 数据 的 处 理 任务 尽量 轻松 。 例 如 ，pandas 对 象 上 的 所 有 描述 统计 都 排除 了 缺失 数据 ， 正 
如 我 们 在 本 章 稍 早 的 地 方 所 看 到 的 那样 。 


pandas 使 用 浮 点 值 NaN (Not a Number) 表示 浮 点 和 非 浮 点 数组 中 的 缺失 数据 。 它 只 是 一 个 
便于 被 检测 出 来 的 标记 而 已 : 


In [229]: string_data = Series(['aardvark', 'artichoke', np.nan, 'avocado'])In [230]: string_data 
In [231]: string_data.isnull()Out[230]: Out[231]:0 aardvark 0 False1 artichoke 1 False2 NaN 2 
True3 avocado 3 False 


Python 内 置 的 None 值 也 会 被 当做 NA 多 理 : 


In [232]: string_data[0] = Noneln [233]: string_data.isnull()Out[233]:0 True1 False2 True3 
False 

我 不 敢 说 pandas 的 NA 表现 形式 是 最 优 的 ， 但 它 确实 很 简单 也 很 可 靠 。 由 于 NumPy 的 数据 类 
型 体系 中 缺乏 真正 的 NA 数据 类 型 或 位 模式 ， 所 以 它 是 我 能 想到 的 最 佳 解决 方案 〈 一 套 简单 的 
API 以 及 足够 全 面 的 性 能 特征 ) 。 随 着 NumPy 的 不 断 发 展 ， 这 个 问题 今后 可 能 会 发 生变 化 。 
表 5-12: NA 处 理 方法 


方法 说 明 

dropna 根据 各 标签 的 rt io 对 轴 标 签 进行 过 滤 ， 可 通过 阅 值 调节 
对 缺失 值 的 容忍 度 

filina 用 指定 值 或 插值 方法 (如 ffill 或 bfill) 填充 缺失 数据 

isnull 返回 一 个 含有 布尔 值 的 对 象 ， 这 些 布 尔 值 表示 哪些 值 是 缺失 值 /NA， 该 对 
象 的 类 型 与 源 类 型 一 样 

notnull isnull 的 否定 式 

滤 除 缺失 数据 


过 滤 掉 缺失 数据 的 办 法 有 很 多 种 。 纯 手工 操作 永远 都 是 一 个 办 法 ， 但 dropna 可 能 会 更 实用 一 
些 。 对 于 一 个 Series，dropna 返 回 一 个 仅 含 非 空 数据 和 索引 值 的 Series : 


In [234]: from numpy import nan as NAln [235]: data = Series([1, NA, 3.5, NA, 7])In [236]: 
data.dropna()Out[236]:0 1.02 3.54 7.0 


当然 ， 也 可 以 通过 布尔 型 素 引 达到 这 个 目的 : 

In [237]: data[data.notnull(O)]Out[237]:0 1.02 3.54 7.0 

而 对 于 DataFrame 对 象 ， 事 情 就 有 点 复杂 了 。 你 可 能 希望 丢弃 全 NA 或 含有 NA 的 行 或 列 。 
dropna 默 认 丢 弃 任何 含有 缺失 值 的 行 : 


In [238]: data = DataFrame([[1., 6.5, 3.], [1., NA, NA], ...: [NA, NA, NA], [NA, 6.5, 3.]])In 
[239]: cleaned = data.dropnal()In [240]: data In [241]: cleanedOut[240]: Out[241]:0 1201 
2016.53016.5311NaN NaN2 NaN NaN NaN3 NaN 6.53 


传 入 how='all' 将 只 丢弃 全 为 NA 的 那些 行 : 
In [242]: data.dropna(how='all)Out[242]: 0 120 16.5311NaN NaN3 NaN 6.53 
要 用 这 种 方式 丢弃 列 ， 只 需 传 信 axis=1 即 可 : 


In [243]: data[l4] = NAln [244]: data In [245]: data.dropna(axis=1, how='all)Out[244]: 
Out[245]:0124012016.53NaN016.5311NaN NaN NaN 11NaN NaN2 NaN NaN 
NaN NaN 2 NaN NaN NaN3 NaN 6.5 3 NaN 3 NaN 6.53 


另 一 个 滤 除 DataFrame 行 的 问题 涉及 时 间 序 列 数 据 。 假 设 你 只 想 留 下 一 部 分 观测 数据 ， 可 以 
用 thresh 参 数 实现 此 目的 : 


In [246]: df = DataFrame(np.random.randn(7, 3))In [247]: df.ix[:4, 1] = NA; df.ix[:2, 2] = NAIn 
[248]: df In [249]: df.dropna(thresh=3)Out[248]: Out[249]: 0 12 0 1 20 -0.577087 NaN NaN 5 
0.332883 -2.359419 -0.1995431 0.523772 NaN NaN 6-1.541996 -0.970736 -1.3070302 
-0.713544 NaN NaN3 -1.860761 NaN 0.5601454 -1.265934 NaN -1.0635125 0.332883 
-2.359419 -0.1995436 -1.541996 -0.970736 -1.307030 


填充 缺失 数据 


你 可 能 不 想 浇 除 缺 失 数据 (有 可 能 会 丢弃 跟 它 有 关 的 其 他 数据 ) ， 而 是 希望 通过 其 他 方式 填 
补 那 些 * 空 洞 "。 对 于 大 多 数 情况 而 言 ， 人 lna 方 法 是 最 主要 的 函数 。 通 过 一 个 常数 调用 flina 就 会 
将 缺失 值 蔡 痪 为 那个 常数 值 : 


In [250]: df.fillIna(0)Out[250]: 0 1 20 -0.577087 0.000000 0.0000001 0.523772 0.000000 
0.0000002 -0.713544 0.000000 0.0000003 -1.860761 0.000000 0.5601454 -1.265934 
0.000000 -1.0635125 0.332883 -2.359419 -0.1995436 -1.541996 -0.970736 -1.307030 
若是 通过 一 个 字典 调用 fillna， 就 可 以 实现 对 不 同 的 列 填 充 不 同 的 值 : 


In [251]: df.filIna({1: 0.5, 3: -1}))Out[251]: 0 1 20 -0.577087 0.500000 NaN1 0.523772 
0.500000 NaN2 -0.713544 0.500000 NaN3 -1.860761 0.500000 0.5601454 -1.265934 
0.500000 -1.0635125 0.332883 -2.359419 -0.1995436 -1.541996 -0.970736 -1.307030 


fillIna 默 认 会 返回 新 对 象 ， 但 也 可 以 对 现 有 对 象 进行 就 地 修改 : 


总 是 返回 被 填充 对 象 的 引用 In [252]: _ = 
df.fillna(0, inplace=True)In [253]: 
dfOut[253]: 0 1 20 -0.577087 0.000000 
0.0000001 0.523772 0.000000 0.0000002 
-0.713544 0.000000 0.0000003 -1.860761 
0.000000 0.5601454 -1.265934 0.000000 
-1.0635125 0.332883 -2.359419 -0.1995436 
-1.541996 -0.970736 -1.307030 


对 reindex 有 效 的 那些 插值 方法 也 可 用 于 flna : 


In [254]: df = DataFrame(np.random.randn(6, 3))In [255]: df.ix[2:, 1] = NA; df.ix[4:, 2] = NAIn 
[256]: dfOut[256]: 0 1 20 0.286350 0.377984 -0.7538871 0.331286 1.349742 0.0698772 
0.246674 NaN 1.0048123 1.327195 NaN -1.5491064 0.022185 NaN NaN5 0.862580 NaN 
NaNln [257]: df.fillna(method="ffill) In [258]: df.fillIna(method="ffill, limit=2)Out[257]: Out[258]: 
01201200.286350 0.377984 -0.753887 0 0.286350 0.377984 -0.7538871 0.331286 
1.349742 0.069877 1 0.331286 1.349742 0.0698772 0.246674 1.349742 1.004812 2 
0.246674 1.349742 1.0048123 1.327195 1.349742 -1.549106 3 1.327195 1.349742 
-1.5491064 0.022185 1.349742 -1.549106 4 0.022185 NaN -1.5491065 0.862580 1.349742 
-1.549106 5 0.862580 NaN -1.549106 


只 要 稍微 动 动脑 子 ， 你 就 可 以 利用 f 仙 na 实现 许多 别 的 功能 。 比 如 说 ， 你 可 以 传人 Series 的 平均 
值 或 中 位 数 : 

In [259]: data = Series([1., NA, 3.5, NA, 7])In [260]: data.fillIna(data.mean())Out[260]:0 
1.0000001 3.8333332 3.5000003 3.8333334 7.000000 

表 5-13 列 出 了 人 fillna 的 参数 参考 。 

表 5-13: fillna 函 数 的 参数 

参数 说 明 

value 用 于 填充 缺失 值 的 标量 值 或 字典 对 象 

method 插值 方式 。 如 果 函 数 调 用 时 未 指定 其 他 参数 的 话 ， 默 认为 “ffill” 


表 5-13: filiIna 画 数 的 参数 ( 续 ) 


参数 说 明 

axis 待 填充 的 轴 ， 默 认 axis=0 

inplace 修改 调用 者 对 象 而 不 产生 副本 

limit (对 于 前 向 和 后 向 填充 ) 可 以 连续 填充 的 最 大 数量 
层次 化 索引 


层次 化 索引 (hierarchical indexing) 是 pandas 的 一 项 重要 功能 ， 它 使 你 能 在 一 个 轴 上 拥有 多 
个 (两 个 以 上 ) 索引 级 别 。 抽 象 点 说 ， 它 使 你 能 以 低 维 度 形式 处 理 高 维度 数据 。 我 们 先 来 看 
Wa 创建 一 个 Series， 并 用 一 个 由 列表 或 数组 组 成 的 列表 作为 索引 。 


In [261]: data = Series(np.random.randn(10), ...: index=[['a', ‘a', ‘a', 'b', bb cy 'e', 'd', 'd"], 
.: [1 2, 3, 1, 2, 3, 1, 2, 2, 3]])In [262]: dataOut[262]:a 1 0.670216 2 0.852965 3 -0.955869b 
1 -0.023493 2 -2.304234 3 -0.652469c 1 -1.218302 2 -1.332610d 2 1.074623 3 0.723642 


这 就 是 带 有 MultiIndex 素 引 的 Series 的 格式 化 输出 形式 。 素 引 之 间 的 “间隔 ”表示 “直接 使 用 上 面 
的 标签 ”: 


In [263]: data.indexOut[263]:Multilndex[(a', 1) (av 2) (av 3) (b', 1) ('b', 2) ('b', 3) (cy 1) (ec 
2) ('d', 2) ('d', 3)] 


对 于 一 个 层次 化 索引 的 对 象 ， 选 取 数 据 子 集 的 操作 很 简单 : 


In [264]: data['b]Out[264]:1 -0.0234932 -2.3042343 -0.652469In [265]: data['b":'c'] In [266]: 
data.ix[[b', 'd]lOut[265]: Out[266]:b 1 -0.023493 b 1 -0.023493 2 -2.304234 2 -2.304234 3 
-0.652469 3 -0.652469c 1 -1.218302 d 2 1.074623 2 -1.332610 3 0.723642 


有 时 其 至 还 可 以 在 “内 层 ” 中 进行 选取 
In [267]: data[:, 2]Out[267]:a 0.852965b -2.304234c -1.332610d 1.074623 


层次 化 素 引 在 数据 重 塑 和 基于 分 组 的 操作 (如 透视 表 生 成 ) 中 扮演 着 重要 的 角色 。 比 如 说 ， 
这 段 数据 可 以 通过 其 unstack 方 法 被 重新 安排 到 一 个 DataFrame 中 : 


In [268]: data.unstack()Out[268]: 1 2 3a 0.670216 0.852965 -0.955869b -0.023493 
-2.304234 -0.652469c -1.218302 -1.332610 NaNd NaN 1.074623 0.723642 


unstack 的 逆 运 算是 stack : 


In [269]: data.unstack().stack()Out[269]:a 1 0.670216 2 0.852965 3 -0.955869b 1 -0.023493 
2 -2.304234 3 -0.652469c 1 -1.218302 2 -1.332610d 2 1.074623 3 0.723642 


stack 和 unstack 将 在 第 7 章 中 详细 讲解 。 


对 于 一 个 DataFrame， 每 条 轴 都 可 以 有 分 层 索 引 : 


In [270]: frame = DataFrame(np.arange(12).reshape((4, 3)), .… index=[['a', 'a', 'b', 'b'], [1, 2， 
1, 2]], .… columns=[['Ohio', 'Ohio', 'Colorado'], ...: [Green'", 'Red', Green]])ln [271]: 
frameOut[271]: Ohio Colorado Green Red Greena10122345b1678291011 


各 层 都 可 以 有 名 字 (可 以 是 字符 串 ， 也 可 以 是 别 的 Python 对 象 ) 。 如 果 指 定 了 名 称 ， 它 们 就 
会 显示 在 控制 台 输 出 中 (不 要 将 索引 名 称 跟 轴 标签 混为一谈 ! ) 


In [272]: frame.index.names = [key1'", 'key2']In [273]: frame.columns.names = ['state,, 
"color]ln [274]: frameOut[274]:state Ohio Coloradocolor Green Red Greenkey1 key2a 10 1 
22345b1678291011 


由 于 有 了 分 部 的 列 索 引 ， 因 此 可 以 轻松 选取 列 分 组 : 
In [275]: frame['Ohio]oOut[275]:color Green Redkey1 key2a 101234b1672910 
可 以 单独 创建 Multilndex 然 后 复 用 。 上 面 那个 DataFrame 中 的 〈 分 级 的 ) 列 可 以 这 样 创 建 : 


Multilndex.from_arrays([[Ohio',，Ohio'，Colorado], [Green', 'Red', 'Green']], names=['state,, 
"color]) 


重 排 分 级 顺序 


有 时 ， 你 需要 重新 调整 某 条 轴 上 各 级 别 的 顺序 ， 或 根据 指定 级 别 上 的 值 对 数据 进行 排序 。 
swapleve| 接 受 两 个 级 别 编号 或 名 称 ， 并 返回 一 个 互 换 了 级 别 的 新 对 象 (但 数据 不 会 发 生变 
化 ) 


In [276]: frame.swaplevel('key1", 'key2')Out[276]:state Ohio Coloradocolor Green Red 
Greenkey2 key11a0122a3451b6782b91011 


而 sortlevel 则 根据 单个 级 别 中 的 值 对 数据 进行 排序 (稳定 的 ) 。 交 换 级 别 时 ， 常 常 也 会 用 到 
sortlevel， 这 样 最 终结 果 就 是 有 序 的 了 : 


In [277]: frame.sortlevel(1) In [278]: frame.swaplevel(0, 1).sortlevel(0)Out[277]: 
Out[278]:state Ohio Colorado state Ohio Coloradocolor Green Red Green color Green Red 
Greenkey1 key2 key2 key1a 10121a012b1678b678a23452a345b291011 
b 9 10 11 


注意 : 在 层次 化 索引 的 对 象 上 ， 如 果 索 引 是 按 字典 方式 从 外 到 内 排序 ( 即 调用 sortlevel(0) 或 
sort_index() 的 结果 ) ， 数 据 选 取 操 作 的 性 能 要 好 很 多 。 

根据 级 别 汇总 统计 

许多 对 DataFrame 和 Series 的 描述 和 汇总 统计 都 有 一 个 level 选 项 ， 它 用 于 指定 在 某 条 轴 上 求 和 


的 级 别 。 再 以 上 面 那个 DataFrame 为 例 ， 我 们 可 以 根据 行 或 列 上 的 级 别 来 进行 求 和 ， 如 下 所 
示 : 


In [279]: frame.suml(level='key2')Out[279]:state Ohio Coloradocolor Green Red Greenkey21 
6 8 102 12 14 16In [280]: frame.sum(level='color, axis=1)Out[280]:color Green Redkey1 
key2a 121284b114722010 


这 其 实 是 利用 了 pandas 的 groupby 功 能 ， 本 书 稍 后 将 对 其 进行 详细 讲解 。 
使 用 DataFrame 的 列 


人 们 经 常 想 要 将 DataFrame 的 一 个 或 多 个 列 当 做 行 索引 来 用 ， 或 者 可 能 希望 将 行 索 引 变 成 
DataFrame 的 列 。 以 下 面 这 个 DataFrame 为 例 : 


In [281]: frame = DataFrame(fa': range(7), 'b': range(7, 0, -1), ...: 'c': [one', 'one'", 'one', 'two,, 
'two'", 'two", 'two'], ...: 'd': [0, 1, 2, 0, 1, 2, 3]})In [282]: frameOut[282]: abcd007one0116 
one 12 2 5 one 23 3 4 two 04 43 two 1552two2661two3 


DataFrame 的 set_index 画 数 会 籽 其 一 个 或 多 个 列 转换 为 行 素 引 ， 并 创建 一 个 新 的 
DataFrame : 


In [283]: frame2 = frame.set_index(['c'", 'd'])In [284]: frame2Out[284]:a bc done 0071162 
25two034143252361 


默认 情况 下 ， 那 些 列 会 从 DataFrame 中 移 除 ， 但 也 可 以 将 其 保留 下 来 : 


In [285]: frame.set index(['c, 'd], drop=False)Out[285]J: abcdcdone007one0116one 
1225one2two034two0143two1252two2361two3 


reset_index 的 功能 跟 set_index 刚 好 相反 ， 层 次 化 素 引 的 级 别 会 被 转移 到 列 里 面 : 


In [286]: frame2.reset index()Out[286]: cdaboone0071one1162one2253two0344 
two 14 35two2526two361 


其 他 有 关 pandas 的 话题 
这 里 是 另外 一 些 可 能 在 你 的 数据 旅程 中 用 得 着 的 有 关 pandas 的 话题 。 
整数 索引 


操作 由 整数 索引 的 pandas 对 象 常常 会 让 新 手 抓 狂 ， 因 为 它们 跟 内 置 的 Python 数据 结构 〈 如 列 
表 和 元 组 ) 在 索引 语义 上 有 些 不 同 。 例 如 ， 你 可 能 认为 下 面 这 段 代 码 不 会 产生 一 个 错误 : 


ser = Series(np.arange(3.))ser[-1] 


在 这 种 情况 下 ， 哩 然 pandas 会 “求助 于 "整数 索引 ， 但 没有 哪 种 方法 (至少 我 就 不 知道 ) 能 够 
既 不 引入 任何 bug 又 安全 有 效 地 解决 该 问题 。 这 里 ， 我 们 有 一 个 含有 0、1、2 的 索引 ， 但 是 很 
难 推断 出 用 户 想 要 什么 〈 基 于 标签 或 位 置 的 索引 ) 


In [288]: serOut[288]:0 01 12 2 


相反 ， 对 于 一 个 非 整 数 索 引 ， 就 没有 这 样 的 歧义 : 


In [289]: ser2 = Series(np.arange(3.), index=[a, "b', 'c'])In [290]: ser2[-1]Out[290]: 2.0 


为 了 保持 良好 的 一 致 性 ， 如 果 你 的 轴 索 引 含 有 索引 器 ， 那 么 根据 整数 进行 数据 选取 的 操作 将 
总 是 面向 标签 的 。 这 也 包括 用 ix 进 行 切 片 : 


In [291]: ser.ix[:1]Out[291]:0 01 1 


如 果 你 需要 可 靠 的 、 不 考虑 索引 类 型 的 、 基 于 位 置 的 索引 ， 可 以 使 用 Series 的 iget_value 方 法 
和 DataFrame 的 irow 和 icol 方 法 : 


In [292]: ser3 = Series(range(3), index=[-5, 1, 3])In [293]: ser3.iget_value(2)Out[293]: 2In 
[294]: frame = DataFrame(np.arange(6).reshape(3, 2), index=[2, 0, 1])In [295]: 
frame.irow(0)Out[295]:0 01 1Name: 2 


面板 数据 


pandas 有 一 个 Panel 数 据 结构 (不 是 本 书 的 主要 内 容 ) ， 你 可 以 将 其 看 做 一 个 三 维 版 的 
DataFrame。pandas 的 大 部 分 开发 工作 都 集中 在 表格 型 数据 的 操作 上 ， 因 为 这 些 数据 更 常 
见 ， 而 且 层 次 化 索引 也 使 得 多 数 情况 下 没 必要 使 用 真正 的 N 维 数组 。 


你 可 以 用 一 个 由 DataFrame 对 象 组 成 的 字典 或 一 个 三 维 ndarray 来 创建 Panel 对 象 : 


import pandas.io.data as webpdata = pd.Panel(dict((stk, web.get_data_ yahoo(stk, 
'1/1/2009", '6/1/2012')) for stk in ['AAPL', 'GOOG,', 'MSFT,', 'DELL")) 


Panel 中 的 每 一 项 (类 似 于 DataFrame 的 列 ) 都 是 一 个 DataFrame : 


In [297]: pdataOut[297]:Dimensions: 4 (items) x 861 (major) x 6 (minor)ltems: AAPL to 
MSFTMajor axis: 2009-01-02 00:00:00 to 2012-06-01 00:00:00Minor axis: Open to Adj 
Closeln [298]: pdata = pdata.swapaxes('items', 'minor')In [299]: pdata['Adj 
Close'|Out[299]:Datetimelndex: 861 entries, 2009-01-02 00:00:00 to 2012-06-01 
00:00:00Data columns:AAPL 861 non-null valuesDELL 861 non-null valuesGOOG 861 non- 
null valuesMSFT 861 non-null valuesdtypes: float64(4) 


基于 ix 的 标签 索引 被 推广 到 了 三 个 维度 ， 因 此 我 们 可 以 选取 指定 日 期 或 日 期 范围 的 所 有 数据 ， 
如 下 所 示 : 


In [300]: pdata.ix[:, '6/1/2012'", :]Out[300]: Open High Low Close Volume Adj CloseAAPL 
569.16 572.65 560.52 560.99 18606700 560.99DELL 12.15 12.30 12.05 12.07 19396700 
12.07GOOG 571.79 572.65 568.35 570.98 3057900 570.98MSFT 28.76 28.96 28.44 28.45 
56634300 28.45In [301]: pdata.ix['Adj Close", '5/22/2012':, :]Out[301]: AAPL DELL GOOG 
MSFTDate2012-05-22 556.97 15.08 600.80 29.762012-05-23 570.56 12.49 609.46 
29.112012-05-24 565.32 12.45 603.66 29.072012-05-25 562.29 12.46 591.53 29.062012- 
05-29 572.27 12.66 594.34 29.562012-05-30 579.17 12.56 588.23 29.342012-05-31 577.73 
12.33 580.86 29.192012-06-01 560.99 12.07 570.98 28.45 


另 一 个 用 于 呈现 面板 数据 (尤其 是 对 拟 合 统计 模型 ) 的 办 法 是 “堆积 式 的 "DataFrame 形 式 : 


In [302]: stacked = pdata.ix[:, '5/30/2012':, :].to_frame()In [303]: stackedOut[303]: Open High 
Low Close Volume Adj Closemajor minor2012-05-30 AAPL 569.20 579.99 566.56 579.17 
18908200 579.17 DELL 12.59 12.70 12.46 12.56 19787800 12.56 GOOG 588.16 591.90 
583.53 588.23 1906700 588.23 MSFT 29.35 29.48 29.12 29.34 41585500 29.342012-05-31 
AAPL 580.74 581.50 571.46 577.73 17559800 577.73 DELL 12.53 12.54 12.33 12.33 
19955500 12.33 GOOG 588.72 590.00 579.00 580.86 2968300 580.86 MSFT 29.30 29.42 
28.94 29.19 39134000 29.192012-06-01 AAPL 569.16 572.65 560.52 560.99 18606700 
560.99 DELL 12.15 12.30 12.05 12.07 19396700 12.07 GOOG 571.79 572.65 568.35 
570.98 3057900 570.98 MSFT 28.76 28.96 28.44 28.45 56634300 28.45 


DataFrame 有 一 个 相应 的 to_pane| 方 法 ， 它 是 to_frame 的 道 运算 : 


In [304]: stacked.to_panel()Out[304]:Dimensions: 6 (items)x3 (major) x 4 (minor)ltems: 
Open to Adj CloseMajor axis: 2012-05-30 00:00:00 to 2012-06-01 00:00:00Minor axis: AAPL 
to MSFT 
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如 果 不 能 将 数据 导入 导出 Python， 本 书 所 介绍 的 这 些 工 具 就 没什么 大 用 。 我 打算 着 重 介绍 
pandas 的 输入 输出 对 象 ， 虽 然 别 的 库 中 也 有 不 少 以 此 为 目的 的 工具 。 例 如 ，NumPy 提 供 了 一 
个 低级 但 异常 高 效 的 二 进 制 数据 加 载 和 存储 机 制 ， 包 括 对 内 存 映射 数组 的 支持 等 。 详 细 内 容 
请 参阅 第 12 章 。 

输入 输出 通常 可 以 划分 为 几 个 大 类 : 读 取 文本 文件 和 其 他 更 高 效 的 磁盘 存储 格式 ， 加 载 数 据 
库 中 的 数据 ， 利 用 Web API 操 作 网 络 资源 。 


读 写 文本 格式 的 数据 


因为 其 简单 的 文件 交互 语法 、 直 观 的 数据 结构 ， 以 及 诸如 元 组 打包 解 包 之 类 的 便利 功能 ， 
Python 在 文本 和 文件 处 理 方面 已 经 成 为 一 门 招 人 喜欢 的 语言 。 

pandas 提 供 了 一 些 用 于 将 表格 型 数据 读 取 为 DataFrame 对 象 的 范 数 。 表 6-1 对 它们 进行 了 总 
结 ， 其 中 read_csv 和 read_table 可 能 会 是 你 今后 用 得 最 多 的 。 


表 6-1: pandas 中 的 解析 函数 


函数 说 明 

read_csy 从 文件 、URL、 文 件 型 对 人 象 中 加 载 带 分 隔 符 的 数据 。 上 默认 分 隔 符 为 逗号 

read_table 从 文件 、URL、 文 件 型 对 象 中 加 载 带 分 隔 符 的 数据 。 默 认 分 隔 符 为 制 
表 符 (“\t”) 

read_fwf 读 取 定 宽 列 格式 数据 (也 就 是 说 ， 没 有 分 隔 符 ) 


read_clipboard 读 取 甬 贴 板 中 的 数据 ， 可 以 看 做 read_table 的 剪贴 板 版 。 人 下 人 





我 将 大 致 介绍 一 下 这 些 辑 数 在 将 文本 数据 转换 为 DataFrame 时 所 用 到 的 一 些 技 术 。 这 些 函 数 
的 选项 可 以 划分 为 以 下 几 个 大 类 : 


索引 : 将 一 个 或 多 个 列 当 做 返回 的 DataFrame 人 处理， 以 及 是 否 从 文件 、 用 户 获取 列 名 。 

类 型 推断 和 数据 转换 : 包括 用 户 定义 值 的 转换 、 缺 失 值 标记 列表 等 。 

日 期 解析 : 包括 组 合 功能 ， 比 如 将 分 散在 多 个 列 中 的 日 期 时 间 信息 组 合成 结果 中 的 单个 列 。 
迭代 : 支持 对 大 文件 进行 逐 块 迭代 。 


:不 规整 数据 问题 : 跳 过 一 些 行 、 页 脚 、 注 释 或 其 他 一 些 不 重要 的 东西 (上 比如 由 成 千 上 万 个 去 
号 隔 开 的 数值 数据 ) 。 


类 型 推断 (type inference) 是 这 些 函 数 中 最 重要 的 功能 之 一 ， 也 就 是 说 ， 你 不 需要 指定 列 的 
类 型 到 底 是 数值 、 整 数 、 布 尔 值 ， 还 是 字符 串 。 日 期 和 其 他 自 定义 类 型 的 处 理 需 要 多 花 点 工 
夫 才 行 。 首 先 我 们 来 看 一 个 以 逗号 分 隔 的 (CSV) 文本 文件 : 


In [846]: !cat ch06/ex1.csv 译 注 1a,b,c,d,message1,2,3,4,hello5,6,7,8,world9,10,11,12,foo 
由 于 该 文件 以 逗号 分 隔 ， 所 以 我 们 可 以 使 用 read_csv 将 其 读 入 一 个 DataFrame : 


In [847]: df = pd.read_csv(ch06/ex1.csv')In [848]: dfOut[848]: ab cd message0 1234 
hello15678world29101112foo 


我 们 也 可 以 用 read table， 只 不 过 需要 指定 分 隔 符 而 已 : 


In [849]: pd.read table(ch06/ex1.csv, sep=",')Out[849]:a bcd message01234hello156 
7 8 world2 9 10 11 12 foo 


注意 : 这 里 我 用 的 是 cat 这 个 UNIX shell 命 令 将 文本 的 原始 内 容 打印 到 屏幕 上 。 如 果 你 用 的 是 
Windows， 则 可 以 使 用 type 来 达到 同样 的 目的 。 


并 不 是 所 有 文件 都 有 标题 行 。 看 看 下 面 这 个 文件 : 
In [850]: !cat ch06/ex2.csv1,2,3,4,hello5,6,7,8,world9,10,11,12,foo 
读 和 该 文件 的 办 法 有 两 个 。 你 可 以 让 pandas 为 其 分 配 默认 的 列 名 ， 也 可 以 自己 定义 列 名 : 


In [851]: pd.read_csv(ch06/ex2.csv, header=None)Out[851]: X.1 X.2 X.3 X.4 X.50 1234 
hello1 5 6 7 8 world2 9 10 11 12 fooln [852]: pd.read csv('ch06/ex2.csv', names=['a', 'b', 'c,, 
'd', 'message'|)Out[852]: ab cd message0 12 3 4 hello1 567 8 world2 9 10 11 12 foo 


假设 你 希望 怪 message 列 做 成 DataFrame 的 素 引 。 你 可 以 明确 表示 要 将 该 列 放 到 索引 4 的 位 置 
上 ， 也 可 以 通过 index_col 参 数 指定 "message" : 


In [853]: names = ['a', 'b', 'c', 'd, message']ln [854]: pd.read csv('ch06/ex2.csv,, 
names=names, index_col='message')Out[854]: ab c dmessagehello 1 2 3 4world 5 6 7 8foo 
9 10 11 12 


如 果 希 望 将 多 个 列 做 成 一 个 层次 化 索引 ， 只 需 传 入 由 列 编号 或 列 名 组 成 的 列表 即 可 : 


In [855]: !cat 
ch06/csv_mindex.csvkey1,key2,value1,value2one,a,1,2one,b,3,4one,c,5,6one,d,7,8two,a,9， 
10two,b,11,12two,c,13,14two,d,15,16In [856]: parsed = pd.read csv('chO6/csv_mindex.csv,, 
index_col=['key1", "key2'])In [857]: parsedOut[857]: value1 value2key1 key2onea12b34c 
56d78twoa910b1112c1314d1516 


有 些 表 格 可 能 不 是 用 固定 的 分 隔 符 去 分 隔 字段 的 (比如 空白 符 或 其 他 模式 译注 2) 。 对 于 这 种 
情况 ， 可 以 编写 一 个 正则 表达 式 来 作为 read_table 的 分 隔 符 。 看 看 下 面 这 个 文本 文件 : 


In [858]: list(open('‘ch06/ex3.txt'))Out[858]:[ A B C\n', 'aaa -0.264438 -1.026059 -0.619500\n', 
'bbb 0.927272 0.302904 -0.032399\n', 'ccc -0.264273 -0.386314 -0.217601\n', 'ddd 
-0.871858 -0.348382 1.100491\n] 


该 文件 各 个 字段 由 数量 不 定 的 空白 符 分 隔 ， 哩 然 你 可 以 对 其 做 一 些 手工 调整 ， 但 这 个 情况 还 
是 处 理 比较 好 。 本 例 的 这 个 情况 可 以 用 正则 表达 式 \s+ 表 示 ， 于 是 我 们 就 有 了 : 


In [859]: result = pd.read table(ch06/ex3.txt, sep="\s+')In [860]: resultOut[860]: AB Caaa 
-0.264438 -1.026059 -0.619500bbb 0.927272 0.302904 -0.032399ccc -0.264273 -0.386314 
-0.217601ddd -0.871858 -0.348382 1.100491 


这 里 ， 由 于 列 名 比 数据 行 的 数量 少 译注 3， 所 以 read _table 推 断 第 一 列 应 该 是 DataFrame 的 索 
引 。 


这 些 解 析 器 函数 还 有 许多 参数 可 以 帮助 你 处 理 各 种 各 样 的 异形 文件 格式 (参见 表 6-2) 。 比 如 
说 ， 你 可 以 用 skiprows 跳 过 文件 的 第 一 行 、 第 三 行 和 第 四 行 : 


In [861]: !cat ch06/ex4.csv# heyla,b,c,d,message# just wanted to make things more difficult 
for you# who reads CSV files with computers, anyway? 
1,2,3,4,hello5,6,7,8,world9,10,11,12,fooln [862]: pd.read_csv(ch06/ex4.csv', skiprows=[0, 2， 
3])Out[862]: ab cd message01234hello15678world29101112foo 


缺失 值 处 理 是 文件 解析 任务 中 的 一 个 重要 组 成 部 分 。 缺 失 数据 经 常 是 要 么 没有 2 
串 ) ， 要 么 用 某 个 标记 值 表示 。 上 默认 情况 下 ，pandas 会 用 一 组 经 常 出 现 的 标记 值 进行 识别 ， 
如 NA、-1.#IND 以 及 NULL 等 : 


In [863]: !cat 
ch06/ex5.csvsomething,a,b,c,d,messageone,1,2,3,4,NAtwo,5,6,,8,worldthree,9,10,11,12,fool 
n [864]: result = pd.read_csv(ch06/ex5.csv')ln [865]: resultout[865]: something ab c d 
message0 one1234NaN1two56NaN8world2three9101112fooln [866]: 
pd.isnull(result)Out[866]: something ab c d message0 False False False False False True1 
False False False True False False2 False False False False False False 


na_values 可 以 接受 一 组 用 于 表示 缺失 值 的 字符 串 : 
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In [867]: result = pd.read_csv(ch06/ex5.csv, na_values=[INULL'])In [868]: resultout[868]: 


something ab c d message0 one1234NaN1two56NaN8world2three9101112foo 


可 以 用 一 个 字典 为 各 列 指定 不 同 的 NA 标记 值 : 


In [869]: sentinels ={message': [foo', 'NA', 'something': [two']}In [870]: 


pd.read_csv(ch06/ex5.csv, na_values=sentinels)Out[870]: something a b c d message0 


one 1234NaN1NaNS56 NaN 8 world2 three 9 10 11 12 NaN 
表 6-2: read_csviread_table 函 数 的 参数 


参数 
path 
sep 或 delimiter 


header 


index_col 


names 


skiprows 


na_values 


comment 


parse_dates 


keep_date_col 


converters 


dayfirst 


date_parser 
Nrows 
iterator 
chunksize 


skip_footer 


说 明 

表示 文件 系统 位 置 、URL、 文 件 型 对 象 的 字符 串 

用 于 对 行 中 各 字段 进行 拆 分 的 字符 序列 或 正则 表达 式 

用 作 列 名 的 行 号。 默认 为 0 (第 一 行 ) ， 如 果 没 有 header 行 就 应 该 设置 
为 None 

用 作 行 索引 的 列 编号 或 列 名 。 可 以 是 单个 名 称 / 数 字 或 由 多 个 名 称 / 数 字 
组 成 的 列表 (层次 化 索引 ) 

用 于 结果 的 列 名 列表 ， 结 合 header=None 


需要 忽略 的 行 数 (从 文件 开始 处 算 起 ) ， 或 需要 跳 过 的 行 号 列表 (从 0 
开始 ) 

一 组 用 于 替换 NA 的 值 

用 于 将 注释 信息 从 行 尾 拆 分 出 去 的 字符 (一 个 或 多 个 ) 

尝试 将 数据 解析 为 日 期 ， 上 默认 为 False。 如 果 为 True， 则 尝试 解析 所 
有 列 。 此 外 ， 还 可 以 指定 需要 解析 的 一 组 列 号 或 列 名 。 如 果 列 表 的 元 
素 为 列表 或 元 组 ， 就 会 将 多 个 列 组 合 到 一 起 再 进行 日 期 解析 工作 ( 例 
如 ,日 期 /时 间 分 别 位 于 两 个 列 中 ) 

如 果 连 接 多 列 解析 日 期 ， 则 保持 参与 连接 的 列 。 罗 认为 False。 


由 列 号 / 列 名 跟 函 数 之 间 的 映射 关系 组 成 的 字典 。 例 如 ，ffoo': 有 会 对 
foo 列 的 所 有 值 应 用 函数 f 


当 解 析 有 歧义 的 日 期 时 ， 将 其 看 做 国际 格式 (例如 ，7/6/2012 一 June 
7, 2012) 。 默 认为 False 


用 于 解析 日 期 的 函数 
需要 读 取 的 行 数 (从 文件 开始 处 算 起 ) 
返回 一 个 TextParser 以 便 逐 块 读 取 文件 
文件 块 的 大 小 (用 于 和 迭代) 
需要 忽 路 的 行 数 (从 文件 末尾 处 算 起 ) 
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表 6-2: read_csv/read_table 函 数 的 参数 ( 续 ) 


参数 说 明 

verbose 打印 各 种 解析 器 输出 信息 ， 比 如 “ 非 数 值 列 中 缺失 值 的 数量 ”等 

encoding 用 于 unicode 的 文本 编码 格式 。 例 如 ，“utf-8” 表 示 用 UTF-8 编 码 的 
文本 

squeeze 如 果 数 据 经 解析 后 仅 含 一 列 ， 则 返回 Series 

thousands 干 分 位 分 隔 符 ， 如 “,” 或 “.” 

逐 块 读 取 文 本 文件 


在 处 理 很 大 的 文件 时 ， 或 找 出 大 文件 中 的 参数 集 以 便于 后 续 处 理 时 ， 你 可 能 只 想 污 取 文 件 的 
一 小 部 分 或 逐 块 对 文件 进行 迭代 。 


In [871]: result = pd.read_csv('ch06/ex6.csv')In [872]: resultOut[872]:Int64Index: 10000 
entries, 0 to 9999Data columns:one 10000 non-null valuestwo 10000 non-null valuesthree 
10000 non-null valuesfour 10000 non-null valueskey 10000 non-null valuesdtypes: 
float64(4), object(1) 


如 果 只 想 读 取 几 行 ( 避 免 读 取 整 个 文件 ) ， 通 过 nrows 进 行 指定 即 可 : 


In [873]: pd.read_csv(ch06/ex6.csv, nrows=5)Out[873]: one two three four key0 0.467976 
-0.038649 -0.295344 -1.824726 L1 -0.358893 1.404453 0.704965 -0.200638 B2 -0.501840 
0.659254 -0.421691 -0.057688 G3 0.204886 1.074134 1.388361 -0.982404 R4 0.354628 
-0.133116 0.283763 -0.837063 Q 


要 了 逐 块 读 取 文件 ， 需 要 设置 chunksize ( 行 数 ) 
In [874]: chunker = pd.read_csv(ch06/ex6.csv, chunksize=1000)In [875]: chunkerOut[875]: 


read_csv 所 返回 的 这 个 TextParser 对 象 使 你 可 以 根据 chunksize 对 文件 进行 逐 块 迭代 。 上 比如 
说 ， 我 们 可 以 迭代 处 理 ex6.csv， 将 值 计 数 聚 合 到 "key" 列 中 ， 如 下 所 示 : 


chunker = pd.read_csv(ch06/ex6.csv, chunksize=1000)tot = Series([])for piece in chunker: 
tot = tot.add(piece['key'].value_counts(), fill_value=0)tot = tot.order(ascending=False) 


于 是 我 们 就 有 了 : 

In [877]: tot[:10]Out[877]:E 368X 364L 3460 343Q 340M 338J 337F 335K 334H 330 
TextParser 还 有 一 个 get_chunk 方 法 ， 它 使 你 可 以 读 取 任意 大 小 的 块 。 

将 数据 写 出 到 文本 格式 

数据 也 可 以 被 输出 为 分 隔 符 格式 的 文本 。 我 们 再 来 看 看 之 前 读 过 的 一 个 CSV 文 件 : 


In [878]: data = pd.read_csv(ch06/ex5.csv')ln [879]: dataOut[879]: something ab c d 
message0 one1234NaN1two56NaN8world2three9101112foo 


利用 DataFrame 的 to_csv 方 法 ， 我 们 可 以 将 数据 写 到 一 个 以 逗号 分 隔 的 文件 中 : 


In [880]: data.to_csv('chO6/out.csv')In [881]: !cat 
ch06/out.csvsomething,a,b,c,d,message0,one,1,2,3.0,4,1,two,5,6,,8,world2,three,9,10,11.0， 
12,foo 


当然 ， 还 可 以 使 用 其 他 分 隔 符 (由 于 这 里 直接 写 出 到 sys.stdout， 所 以 仅仅 是 打印 出 文本 结 
而 已 ) : 


In [882]: data.to_csv(sys.stdout, 
sep='|')lsomethinglalblcld|messageOlone|1|2|3.0|4|1|ltwolS|6||8|world2|three|9|10|11.0|12|foo 


缺失 值 在 输出 结果 中 会 被 表示 为 空 字符 串 。 你 可 能 希望 将 其 表示 为 别 的 标记 值 : 


In [883]: data.to_csv(sys.stdout, 
na_rep='NULL'),something,a,b,c,d,message0,one,1,2,3.0,4,NULL1 ,two,5,6,NULL.,8,world2.,t 
hree,9,10,11.0,12,foo 


如 果 没 有 设置 其 他 选项 ， 则 会 写 出 行 和 列 的 标签 。 当 然 ， 它 们 也 都 可 以 被 禁用 : 


In [884]: data.to_csv(sys.stdout, index=False, 
header=False)one,1,2,3.0,4,two,5,6,,8,worldthree,9,10,11.0,12,foo 


此 外 ， 你 还 可 以 只 写 出 一 部 分 的 列 ， 并 以 你 指定 的 顺序 排列 : 
In [885]: data.to_csv(sys.stdout, index=False, cols=['a', 'b', 'c'])a,b,c1,2,3.05,6,9,10,11.0 
Series 也 有 一 个 to_csv 方 法 : 


In [886]: dates = pd.date_range(1/1/2000, periods=7)In [887]: ts = Series(np.arange(7)， 
index=dates)ln [888]: ts.to_csv('chOG/tseries.csv')In [889]: !cat chO6/tseries.csv2000-01-01 
00:00:00,02000-01-02 00:00:00,12000-01-03 00:00:00,22000-01-04 00:00:00,32000-01-05 
00:00:00,42000-01-06 00:00:00,52000-01-07 00:00:00,6 


虽然 只 需 一 点 整理 工作 (无 header 行 ， 第 一 列 作 索引 ) 就 能 用 read_csv 将 CSV 文 件 读 取 为 
Series， 但 还 有 一 个 更 为 方便 的 from_csv 方 法 : 


In [890]: Series.from csv('chOG6/tseries.csv', parse dates=True)Out[890]:2000-01-01 02000- 
01-02 12000-01-03 22000-01-04 32000-01-05 42000-01-06 52000-01-07 6 


更 多 信息 请 在 IPython 中 查看 to_csv 和 from_csv 的 文档 。 
手工 处 理 分 隔 符 格式 


大 部 分 存储 在 磁盘 上 的 表格 型 数据 都 能 用 pandas.read_table 进 行 加 载 。 然 而 ， 有 时 还 是 需要 
做 一 些 手工 处理 。 由 于 接收 到 含有 畸形 行 的 文件 而 使 read_table 出 毛病 的 情况 并 不 少见 。 为 了 
说 明 这些 基 本 工具 ， 看 看 下 面 这 个 简单 的 CSV 文 件 : 


In [891]: Icat chO6/ex7.csv"a","b","c™1","2","3"1","2","3","4" 


对 于 任何 单字 符 分 隔 符 文件 ， 可 以 直接 使 用 Python 内 置 的 csv 模 块 。 闻 任意 已 打开 的 文件 或 文 
件 型 的 对 象 传 给 csv.reader : 


import csvf = open(ch06/ex7.csv')reader = csv.reader(f) 

对 这 个 reader 进 行进 代 将 会 为 每 行 产 生 一 个 元 组 译注 4 〈 并 移 除 了 所 有 的 引号 ) 
In [893]: for line in reader: ....: print line['a’, 'b', 'c]['1", '2",'31[1", '2", 3 "4 
现在 ， 为 了 使 数据 格式 合乎 要 求 ， 你 需要 对 其 做 一 些 整理 工作 : 


In [894]: lines = list(csv.reader(open(ch06/ex7.csv')))In [895]: header values = lines[0], 
lines[1:]In [896]: data_ dict = {h: v for h, v in zip(header, zip(*values))}In [897]: 
data_dictOut[897]: {a': (1', '1"), 'b': (2', '2"), 'c': ('3', '3")} 


CSV 文 件 的 形式 有 很 多 。 只 需 定义 csv.Dialect 的 一 个 子 类 即 可 定义 出 新 格式 (如 专门 的 分 隔 
符 、 字 符 串 引用 约定 、 行 结束 符 等 ) 


class my_dialect(csv.Dialect): lineterminator = \n' delimiter = ; quotechar = "reader = 
csv.reader(f, diaect=my_dialect) 
各 个 CSV 语 支 的 参数 也 可 以 关键 字 的 形式 提供 给 csv.reader， 而 无 需 定义 子 类 : 
reader = csv.reader(f, delimiter="|') 
可 用 的 选项 (csv.Dialect 的 属性 ) 及 其 功能 如 表 6-3 所 示 。 
表 6-3，CSV 语 支 选 项 
参数 说 明 
delimiter 用 于 分 阳 字 段 的 单字 符 字 符 囊 。 默 认为 “， 
lineterminator ”用 于 写 操 作 的 行 结束 符 ， 默 认为“\r\n”。 读 操作 将 忽略 此 选项 ， 它 能 
认 出 跨 平 人 台 的 行 结束 符 
quotechar 用 于 带 有 特殊 字符 (如 分 隔 符 ) 的 字段 的 引用 符号 ， 默 认为“"”” 
quoting 引用 约定 。 可 选 值 包括 csv.QUOTE_ALL (引用 所 有 字段 ) 、csv. 
QUOTE_MINIMAL (只 引用 带 有 诸如 分 隔 符 之 类 特殊 字符 的 字段 ) ， 
CSV,QUOTE_NONNUMERIC 以 及 csv,QUOTE_NON (不 引用 ) 完整 信息 
请 参考 和 文档 。 点 认为 QUOTE_MINIMAL 
skipinitialspace 忽略 分 隔 符 后 面 的 空白 符 。 默 认为 False 
doublequote ”如 何 处 理 字 ter 引用 符号 ， 如 果 为 True， 则 双 写 。 完 整 信息 及 行为 
请 参见 在 线 文 档 
escapechar 用 于 对 分 隔 符 进行 转 义 的 字符 串 (如 果 quoting 被 设置 为 csv.QUOTE_ 


NONE 的 话 ) 。 默 认 禁 用 


注意 : 对 于 那些 使 用 复杂 分 隔 符 或 多 字符 分 隔 符 的 文件 ，csv 模 块 就 无 能 为 力 了 。 这 种 情况 
下 ， 你 就 只 能 使 用 字符 串 的 split 方 法 或 正则 表达 式 方法 re.split 进 行 行 拆 分 和 其 他 整理 工作 了 。 


要 手工 输出 分 隔 符 文件 ， 你 可 以 使 用 csv.writer。 它 接受 一 个 已 打开 且 可 写 的 文件 对 象 以 及 跟 
csv.reader 相 同 的 那些 语 支 和 格式 化 选项 : 


with open('mydata.csv', "Ww') asfwriter = csv.writer(f, 
dialect=my_dialect)writer.writerow(('one', 'two', 'three'))writer.writerow(('1', '2", 
'3'))writer.writerow(('4", '5", '6') )writer.writerow(('7', '8', '9")) 


JSON 数 据 


JSON (JavaScript Object Notation 的 简称 ) 已 经 成 为 通过 HTTP 请 求 在 Web 浏 览 器 和 其 他 应 
用 程序 之 间 发 送 数 据 的 标准 格式 之 一 。 它 是 一 种 比 表格 型 文本 格式 (如 CSV) 有 灵活 得 多 的 数 
据 格式 。 下 面 是 一 个 例子 : 


obj = "fname": "Wes", "places_lived": ["United States", "Spain", "Germany"], "pet": null, 
"siblings": [{"name": "Scott", "age": 25, "pet": "Zuko"}, {"Nname": "Katie", "age": 33, "pet" 
"Cisco 了 了] ”” 


除 其 空 值 null 和 一 些 其 他 的 细微 差别 (如 列表 末尾 不 允许 存在 多 余 的 逗号 ) 之 外 ，JSON 非 常 
接近 于 有 效 的 Python 代码 。 基 本 类 型 有 对 象 (字典 ) 、 数 组 (列表 ) 、 字 符 串 、 数 值 、 布 尔 
值 以 及 null。 对 象 中 所 有 的 键 都 必须 是 字符 串 。 许 多 Python 库 都 可 以 读 写 JSON 数 据 。 我 将 使 
用 json， 因 为 它 是 构建 于 Python 标准 库 中 的 。 通 过 json.loads 即 可 将 JSON 字 符 串 转换 成 
Python 形式 : 


In [899]: import jsonln [900]: result = json.loads(obj)In [901]: resultOut[901]:{u'name': u'Wes,, 
u'pet': None, u'places_lived': [u'United States, u'Spain', u'Germany'], u'siblings': [{v'age': 25, 
u'name': UScott, u'pet': uy'Zuko'}, {uy'age': 33, u'name': u'Katie', u'pet': u'Cisco'}]} 

相反 ，json.dumps 则 将 Python 对 象 转 换 成 JSON 格 式 : 


In [902]: asjson = json.dumps(result) 


如 何 将 (一 个 或 一 组 ) JSON 对 象 转换 为 DataFrame 或 其 他 便于 分 析 的 数据 结构 就 由 你 决定 
了 。 最 简单 方便 的 方式 是 : 向 DataFrame 构 造 器 传人 一 组 JSON 对 象 ， 并 选取 数据 字段 的 子 集 
In [903]: siblings = DataFrame(result['siblings], columns=[name', 'age'])In [904]: 


siblingsOut[904]: name age0 Scott 251 Katie 33 


第 7 章 中 关于 USDA Food Database 的 那个 例子 进一步 讲解 了 JSON 数 据 的 读 取 和 你 理 ( 包 括 
同 套 记录 ) 。 


注意 : pandas 团 队 正 致 力 于 为 pandas 添 加 原生 的 高 效 JSON 导 出 (to_json) 和 解码 
(from_json) 功能 。 不 过 目前 还 没 开发 完成 。 


XML 和 HTML : Web 信 息 收 集 


Python 有 许多 可 以 读 写 HTML 和 XML 格式 数据 的 库 。lxml (http://Ixml.de) 就 是 其 中 之 一 ， 它 
能 够 高 效 且 可 靠 地 解析 大 文件 。Ixml 有 多 个 编程 接口 。 首 先 我 要 用 lxml.html 处 理 HTML， 然 后 
再 用 Ixml.objectify 做 一 些 XML 人 处 理 。 


许多 网 站 都 将 数据 放 到 HTML 表 格 中 以 便 在 浏览 器 中 查看 ， 但 不 能 以 一 种 更 易于 机 器 阅读 的 格 
(如 JSON、HTML 或 XML) 进行 下 载 。 我 发 现 YahoolFinance 的 股票 期 权 数据 就 是 这 样 。 

能 你 对 这 种 数据 不 熟悉 : 期 权 是 指使 你 有 权 从 现在 开始 到 未 来 某 个 时 间 (到 期 日 ) 内 以 某 
(执行 价 ) 买 进 ( 看 涨 期 权 ) 或 卖 出 (看 跌 期 权 ) 某 公司 股票 的 衍生 合约 。 人 们 
的 看 涨 和 看 跌 期 权 交 易 有 多 种 执行 价 和 到 期 日 ， 这 些 数据 都 可 以 在 Yahool!lFinance 的 各 种 表格 
中 找到 。 


首先 ， 找 到 你 希望 获取 数据 的 URL， 利 用 urllib2 将 其 打开 ， 然 后 用 lxml 解 析 得 到 的 数据 流 ， 如 
下 所 示 : 


from lxml.html import parsefrom urllib2 import urlopenparsed = 
parse(urlopen('http://finance.yahoo.com/gq/op?s=AAPL+Options'))doc = parsed.getroot() 


通过 这 个 对 象 ， 你 可 以 获取 特定 类 型 的 所 有 HTML 标 签 (tag) ， 比 如 含有 所 需 数 据 的 table 标 
签 。 给 这 个 简单 的 例子 加 点 启发 性 ， 假 设 你 想得到 该 文档 中 所 有 的 URL 链 接 。HTML 中 的 链接 
是 a 标签 。 使 用 文档 根 节点 的 findall 方 法 以 及 一 个 XPath (对 文档 的 “查询 ”的 一 种 表示 手段 ) 


In [906]: links = doc.findall(.//a')In [907]: links[15:20]Out[907]:[,,,,] 


但 这 些 是 表示 HTML 元 素 的 对 象 。 要 得 到 URL 和 链接 文本 ， 你 必须 使 用 各 对 象 的 get 方 法 〈 针 
对 URL) 和 text_content 方 法 (针对 显示 文本 ) 


In [908]: Ink = links[28]In [909]: InkoOut[909]: In [910]: Ink.get('href )Out[910]: 
'http://biz.yahoo.com/special.html'In [911]: Ink.text_content()Out[911]: "Special Editions' 


因此 ， 编 写 下 面 这 条 列表 推导 式 (list comprehension) 即 可 获取 文档 中 的 全 部 URL : 


In [912]: urls = [Ink.get('href) for Ink in doc.findall('.//a')]In [913]: urls[-10:]Out[913]: 
[http://info.yahoo.com/privacy/us/yahoo/finance/details.html','http://info.yahoo.com/relevanta 
ds/",'http://docs.yahoo.com/info/terms/','http://docs.yahoo.com/info/copyright/copyright.html', 
http://help.yahoo.com/l/us/yahoo/finance/forms_index.html','http://help.yahoo.com/l/us/yahoo 
/finance/quotes/fitadelay.html','http://help.yahoo.com/l/us/yahoo/finance/quotes/fitadelay.html 
'",'http://www.capitaliq.com,'",'http://www.csidata.com','http://www.morningstar.com/] 


现在 ， 从 文档 中 找 出 正确 表格 的 办 法 就 是 反复 试验 了 。 有 些 网 站 会 给 目标 表格 加 上 一 个 id 属 
性 。 我 确定 有 两 个 分 别 放 置 看 涨 数据 和 看 跌 数据 的 表格 : 


tables = doc.findall('.//table')calls = tables[9]puts = tables[13] 
每 个 表格 都 有 一 个 标题 行 ， 然 后 才 是 数据 行 : 


In [915]: rows = calls.findall('.//tr") 


对 于 标题 行 和 数据 行 ， 我 们 希望 获取 每 个 单元 格 内 的 文本 。 对 于 标题 行 ， 就 是 th 单元 格 ， 而 对 
于 数据 行 ， 则 是 td 单元 格 : 


def unpack(row, kind='td'): elts = row.findall('.//%s' % kind) return [val.text_content() for val 
in elts] 


这 样 ， 我 们 就 得 到 了 : 


In [917]: _unpack(rows[0], kind='th')Out[917]: ['Strike', 'Symbol', 'Last', 'Chg'", 'Bid', 'Ask', 'Vol", 
'Open Int]ln [918]: _unpack(rows[1], kind='td')Out[918]: 
[295.00'"AAPL120818C00295000','310.40"," 0.00','289.80',"290.80','1',"169]] 


现在 ， 把 所 有 步 又 结合 起 来 ， 将 数据 转换 为 一 个 DataFrame。 由 于 数值 型 数据 仍然 是 字符 串 
格式 ， 所 以 我 们 希望 将 部 分 列 (可 能 不 是 全 部 ) 转换 为 浮 点 数 格式 。 虽然 你 可 以 手工 实现 该 
功能 ， 但 是 pandas 恰 好 就 有 一 个 TextParser 类 可 用 于 自动 类 型 转换 (read_csv 和 其 他 解析 函 
数 其 实在 内 部 都 用 到 了 它 ) 


from pandas.io.parsers import TextParserdef parse_options_ data(table): rows = 
table.findall(.Wtr) header = _unpack(rows[0], kind='th') data = [_unpack(r) for r in rows[1:]] 
return TextParser(data, names=header).get_chunk() 


最 后 ， 我 对 那 两 个 lkml 表 格 对 象 调用 该 解析 函数 并 得 到 最 终 的 DataFrame : 


In [920]: call_data = parse_options_data(calls)In [921]: put_data = 
parse_options_data(puts)In [922]: call_data[:10]Out[922]:Strike Symbol Last Chg Bid Ask 
Vol Open Int0 295 AAPL120818C00295000 310.40 0.0 289.80 290.80 1 1691 300 
AAPL120818C00300000 277.10 1.7 284.80 285.60 2 4782 305 AAPL120818C00305000 
300.97 0.0 279.80 280.80 10 3163 310 AAPL120818C00310000 267.05 0.0 274.80 275.65 
6 2394 315 AAPL120818C00315000 296.54 0.0 269.80 270.80 22 885 320 
AAPL120818C00320000 291.63 0.0 264.80 265.80 96 1736 325 AAPL120818C00325000 
261.34 0.0 259.80 260.80 N/A 1087 330 AAPL120818C00330000 230.25 0.0 254.80 255.80 
N/A 218 335 AAPL120818C00335000 266.03 0.0 249.80 250.65 4 469 340 
AAPL120818C00340000 272.58 0.0 244.80 245.80 4 30 


利用 lxml.objectify 解 析 XML 


XML (Extensible Markup Language) 是 另 一 种 常见 的 支持 分 层 、 谍 套数 据 以 及 元 数据 的 结 
构 化 数据 格式 。 本 书 所 使 用 的 这 些 文件 实际 上 来 自 于 一 个 很 大 的 XML 文档 。 


之 前 ， 我 介绍 了 Ixml 库 及 其 lxml.html 接 口 。 这 里 我 将 介绍 另 一 个 用 于 操作 XML 数据 的 接口 ， 即 
lxml.objectify。 


纽约 大 都 会 运输 署 (Metropolitan Transportation Authority，MTA) 发 布 了 一 些 有 关 其 公交 和 
列车 服务 的 数据 资料 (http://www.mta.info/developers/download.html) 。 这 里 ， 我 们 将 看 看 
包含 在 一 组 XML 文件 中 的 运行 情况 数据 。 每 项 列车 或 公交 服务 都 有 各 自 的 文件 〈 如 Metro- 


North Railroad 的 文件 是 PerformanceMNR.xml[ 译 注 6](#809468440711498- 
YiZhu6_Gai Wen Jian_Yi Jing Geng Ming Dan Huan_ Shi Ke Yi Xia Zai Dao Xiang_ 
Guan_De_Wen_Jian)) ， 其 中 每 条 XML 记录 就 是 一 条 月 度数 据 ， 如 下 所 示 : 


<INDICATOR>373889Metro-North RailroadEscalator Availability<DESCRIPTION>Percent of 
the time that escalators are operationalsystemwide. The availability rate is based on physical 
observations performed the morning of regular business days only. This is a new indicator 
the agency began reporting in 2009.</DESCRIPTION>201112<CATEGORY>Service 
Indicators</CATEGORY> 
<FREQUENCY>M</FREQUENCY>U%197.0097.00</INDICATOR> 


我 们 先 用 lxml.objectify 解 析 该 文件 ， 然 后 通过 getroot 得 到 该 XML 文 件 的 根 节点 的 引用 : 


from lxml import objectifypath = "Performance_ MNR.xml'parsed = 
objectify.parse(open(path))root = parsed.getroot() 


root.INDICATOR 返 回 一 个 用 于 产生 各 个 <INDICATOR>XML 元 素 的 生成 器 。 对 于 每 条 记录 ， 
我 们 可 以 用 标记 名 (如 YTDACTUAL) 和 数据 值 填充 一 个 字典 (排除 几 个 标记 ) [译注 7] 
(#809468440711498- 

YiZhu7You_Yu_Shu_Ju_Wen yan Ge Shi Yi Jing Gai BianSuo_Yi Zhe_Duan_Dai Ma 
_Bu_Neng_Zhi Jie Zhi Xing LeXu Yao An Zhao Xin De _ Shu Ju_ Ge Shi Shao Wei_ 
Diao Zheng_ Yi Xia_ Bu_Guo): 


data = []skip_fields = [PARENT_SEQ,', 'INDICATOR_SEQ', 'DESIRED_CHANGE.,, 
'DECIMAL PLACES'"for elt in root.INDICATOR: el_data = {} for child in elt.getchildren(): if 
child.tag in skip_fields: continue el_data[child.tag] = child.pyval data.append(el_data) 


最 后 ， 将 这 组 字典 转换 为 一 个 DataFrame : 


In [927]: perf = DataFrame(data)In [928]: perfOut[928]:Int64Index: 648 entries, 0 to 647Data 
columns:AGENCY NAME 648 non-null valuesCATEGORY 648 non-null 
valuesDESCRIPTION 648 non-null valuesFREQUENCY 648 non-null 
valuesINDICATOR_NAME 648 non-null valuesINDICATOR_UNIT 648 non-null 
valuesMONTHLY_ACTUAL 648 non-null valuesMONTHLY_TARGET 648 non-null 
valuesPERIOD MONTH 648 non-null valuesPERIOD_YEAR 648 non-null 

valuesYTD_ ACTUAL 648 non-null valuesYTD_TARGET 648 non-null valuesdtypes: int64(2), 
object(10)Empty DataFrameColumns: array([], dtype=int64)Index: array([], dtype=int64) 


XML 数 据 可 以 比 本 例 复杂 得 多 。 每 个 标记 都 可 以 有 元 数据 。 看 看 下 面 这 个 HTML 的 链接 标记 
( 它 也 算是 一 段 有 效 的 XML) 


from StringlO import StringlOtag = '<a href="http://www.google.com">Google</a>'root = 
objectify.parse(StringlO(tag)).getroot() 


现在 就 可 以 访问 链接 文本 或 标记 中 的 任何 字段 了 (如 href) 


In [930]: rootOut[930]: In [931]: root.get('href )Out[931]: "http://www.google.com'In [932]: 
root.textOut[932]: 'Google' 


译注 1 

: 还 是 那 句 话 ， 作 者 用 的 是 UNIX，Windows 下 得 用 type。 

译注 2 

: 这 里 的 “模式 "一 词 表 示 的 是 “字符 串 "。 如 果 对 此 概念 较 模 糊 ， 建 议 阅 读 《 数 据 结构 》。 
译注 3 


: 准确 的 说 法 应 该 是 : 列 名 的 数量 比 列 的 数量 少 1。 


完整 的 说 法 应 该 是 : 列 名 “ 行 " 中 “有 内 容 
的 "字段 数量 比 其 他 数据 “ 行 "中 “有 内 容 的 "字段 数量 少 1。 


: 很 明显 ， 这 里 得 到 的 结果 不 是 元 组 而 是 列表 。 


: 意思 是 说 可 以 选 一 部 分 字段 。 当 然 也 可 以 全 部 选 完 。 

译注 6 

: 该 文件 已 经 更 名 ， 但 还 是 可 以 下 载 到 相关 的 文件 。 

译注 7 

: 由 于 数据 文件 格式 已 经 改变 ， 所 以 这 段 代 码 不 能 直接 执行 了 ， 需 要 按照 新 的 数据 格式 稍微 
调整 一 下 ， 不 过 也 不 麻烦 ， 留 给 读者 当做 练习 吧 。 

二 进 制 数据 格式 


实现 数据 的 二 进 制 格式 存储 最 简单 的 办 法 之 一 是 使 用 Python 内 置 的 pickle 序 列 化 。 为 了 使 用 方 
便 ，pandas 对 象 都 有 一 个 用 于 将 数据 以 pickle 形 式 保 存 到 磁盘 上 的 save 方 法 : 


In [933]: frame = pd.read_csv(ch06/ex1.csv')In [934]: frameoOut[934]: ab cd message0 1 2 
34hello15678world29101112fooln [935]: frame.save(ch06/frame _pickle ') 


你 可 以 通过 另 一 个 也 很 好 用 的 pickle 函 数 pandas.load 将 数据 读 回 到 Python : 


In [936]: pd.load(Ccho6/frame _pickle')Out[936]: ab cd message0 1234hello15678 
world2 9 10 11 12 foo 


警告 : pickle 仅 建议 用 于 短期 存储 格式 。 其 原因 是 很 难保 证 该 格式 永远 是 稳定 的 ; 今天 pickle 
的 对 象 可 能 无 法 被 后 续 版 本 的 库 unpickle 出 来 。 哩 然 我 尽力 保证 这 种 事情 不 会 发 生 在 pandas 
中 ， 但 是 今后 的 某 个 时 候 说 不 定 还 是 得 “打破 ”该 pickle 格 式 。 


使 用 HDF5 格 式 


很 多 工具 都 能 实现 高 效 读 写 磁 盘 上 以 二 进 制 格 式 存储 的 科学 数据 。HDF5 就 是 其 中 一 个 流行 的 
工业 级 库 ， 它 是 一 个 C 库 ， 带 有 许多 语言 的 接口 ， 如 Java、Python 和 MATLAB 等 。HDF5 中 的 
HDF 指 的 是 层次 型 数据 格式 (hierarchical data format) 。 每 个 HDF5 文 件 都 含有 一 个 文件 系 
统 式 的 节点 结构 ， 它 使 你 能 够 存储 多 个 数据 集 并 支持 元 数据 。 和 与 其 他 简单 格式 相 比 ，HDF5 支 
持 多 种 压缩 器 的 即时 压缩 ， 还 能 更 高 效 地 存储 重复 模式 数据 。 对 于 那些 非常 大 的 无 法 直接 放 
入 内 存 的 数据 集 ，HDF5 就 是 不 错 的 选择 ， 因 为 它 可 以 高 效 地 分 块 读 写 。 


Python 中 的 HDF5 库 有 两 个 接口 〈 即 PyTables 和 h5py) ， 它 们 各 自 采 取 了 不 同 的 问题 解决 方 
式 。h5py 提 供 了 一 种 直接 而 高 级 的 HDF5API 访 问 接口 ， 而 PyTables 则 抽象 了 HDF5 的 许多 细 
节 以 提供 多 种 灵活 的 数据 容器 、 表 索引 、 查 询 功 能 以 及 对 核 外 计算 技术 (out-of-core 
computation) 的 某 些 支持 。 


pandas 有 一 个 最 小 化 的 类 似 于 字典 的 HDFStore 类 ， 它 通过 PyTables 存 储 pandas 对 象 : 


In [937]: store = pd.HDF Store('mydata.h5')In [938]: store[obj1] = frameln [939]: 
store['obj1_col] = frame['a']In [940]: storeOut[940]:File path: mydata.h5obj1 
DataFrameobj1_col Series 


HDF5 文 件 中 的 对 象 可 以 通过 与 字典 一 样 的 方式 进行 获取 : 
In [941]: store['obj1"]JOut[941]: ab cd message0 1234hello15678world29101112foo 


如 果 需 要 处 理 海量 数据 ， 我 建议 你 好 好 研究 一 下 PyTables 和 h5py， 看 看 它们 能 满足 你 的 哪些 
需求 。 由 于 许多 数据 分 析 问 题 都 是 IO 密集 型 (而 不 是 CPU 密集 型 ) ， 利 用 HDF5 这 样 的 工具 能 
显著 提升 应 用 程序 的 效率 。 


警告 : HDF5 不 是 数据 库 。 它 最 适合 用 作 " 一 次 写 多 次 读 " 的 数据 集 。 虽 然 数据 可 以 在 任何 时 候 
被 添加 到 文件 中 ， 但 如 果 同时 发 生 多 个 写 操 作 ， 文 件 就 可 能 会 被 破坏 。 


读 取 Microsoft Excel 文 件 


pandas 的 ExcelFile 类 支持 读 取 存储 在 Excel 2003 (或 更 高 版 本 ) 中 的 表格 型 数据 。 由 于 
ExcelFile 用 到 了 xlrd 和 openpyxl 包 ， 所 以 你 先 得 安装 它们 才 行 。 通 过 传 入 一 个 xls 或 xlsx 文 件 的 
路 径 即 可 创建 一 个 ExcelFile 实 例 : 


xls_file = pd.ExcelFile('data.xls') 
存放 在 某 个 工作 表 中 的 数据 可 以 通过 parse 读 取 到 DataFrame 中 : 
table = xls_file.parse('Sheet1') 


使 用 HTML 和 Web API 


许多 网 站 都 有 一 些 通过 JSON 或 其 他 格式 提供 数据 的 公共 API。 通 过 Python 访问 这 些 API 的 办 
法 有 不 少 。 一 个 简单 易 用 的 办 法 (推荐 ) 是 requests 包 (http://docs.python-requests.org) 。 
为 了 在 Twitter 上 搜索 "python pandas"， 我 们 可 以 发 送 一 个 HTTP GET 请 求 ， 如 下 所 示 : 


In [944]: import requestsln [945]: url = 'http:/search.twittercom/search.json? 
qdq=python%20pandas'In [946]: resp = requests.get(url)In [947]: respOut[947]: 


Response 对 象 的 text 属 性 含有 GET 请 求 的 内 容 。 许 多 Web API 返 回 的 都 是 JSON 字 符 串 ， 我 们 
必须 将 其 加 载 到 一 个 Python 对 象 中 : 


In [948]: import jsonln [949]: data = json.loads(resp.text)In [950]: data.keys()Out[950]: 
[unext_page',ucompleted _ in',u'max_id_ str',u'since_id_str',u'refresh_url',u'results',u'since_id' 
,U'results_per_page',u'query',u'max_id',u'page'] 


响应 结果 中 的 results 字 段 含 有 一 组 tweet， 每 条 tweet 被 表示 为 一 个 Python 字典 ， 如 下 所 示 : 


{u'created_at': u'Mon, 25 Jun 2012 17:50:33 +0000',u'from_user': 
u'wesmckinn',u'from_user id: 115494880,u'from_user_id_ str': 
u'115494880',u'from_user_name': u'Wes MckKinney',u'geo': None,U'id : 
217313849177686018,u'id_str: u'217313849177686018',u'iso_language_code': 
u'pt',u'metadata': {u'result_type': u'recent'},u'source': u'<a 
href="http://twitter.com/">web</a>',u'text': u'Lunchtime pandas-fu http://t.co/SI70xZZQ 
#pydata',u'to_user': None,u'to_user id': 0,u'to_user_ id str': u'0',u'to_user_name': None} 


我 们 用 一 个 列表 定义 出 感 兴趣 的 tweet 字 段 ， 然 后 将 results 列 表 传 给 DataFrame : 


In [951]: tweet fields = ['created at, from_user，id, text]ln [952]: tweets = 
DataFrame(data[results'], columns=tweet fields)In [953]: tweetsOut[953]:Int64Index: 15 
entries, 0 to 14Data columns:created at 15 non-null valuesfrom_user 15 non-null valuesid 
15 non-null valuestext 15 non-null valuesdtypes: int64(1), object(3) 


现在 ，DataFrame 中 的 每 一 行 就 有 了 来 自 一 条 tweet 的 数据 : 


In [121]: tweets.ix[7]Out[121]:created_at Thu, 23 Jul 2012 09:54:00 +0000from_user 
deblikeid 227419585803059201text pandas: powerful Python data analysis toolkitName: 7 


要 想 能 够 直接 得 到 便于 分 析 的 DataFrame 对 象 ， 只 需 再 多 费 些 精力 创建 出 对 常见 Web API 的 更 
高 级 接口 即 可 。 


使 用 数据 库 


在 许多 应 用 中 ， 数 据 很 少 取 自 文本 文件 ， 因 为 用 这 种 方式 存储 大 量 数据 很 低 效 。 基 于 SQL 的 
关系 型 数据 库 (如 SQL Server、PostgreSQL 和 MySQL 等 ) 使 用 非常 广泛 ， 此 外 还 有 一 些 非 
SQL 〈 即 所 谓 的 NoSQL) 型 数据 库 也 变 得 非常 流行 。 数 据 库 的 选择 通常 取决 于 性 能 、 数 据 完 
整 性 以 及 应 用 程序 的 伸缩 性 需求 。 


将 数据 从 SQL 加 载 到 DataFrame 的 过 程 很 简单 ， 丕 有 一 些 能 够 简化 该 过 程 的 函 
数 。 例 如 ， 我 将 使 用 一 款 伐 入 式 的 SQLite 数 据 库 (通过 Python 内 置 的 sqlite3 了 驱动 器 ) 


import sqlite3query = ""CREATE TABLE test(a VARCHAR(20), b VARCHAR(20),c REAL, d 
INTEGER);"""con = sqlite3.connect(:memory: )con.execute(query)con.commit() 


然后 插入 几 行 数据 : 


data = [(‘Atlanta', 'Georgia', 1.25, 6), ("Tallahassee', 'Florida', 2.6, 3), 
(‘Sacramento', 'California', 1.7, 5)]stmt = "INSERT INTO test VALUES(?, ?, 2, 
?)"con.executemany(stmt, data)con.commit() 


从 表 中 选取 数据 时 ， 大 部 分 Python SQL 驱动 器 (PyODBC、psycopg2、MySQLdb、pymssql 
等 ) 都 会 返回 一 个 元 组 列表 : 


In [956]: cursor = con.execute('select * from test')In [957]: rows = cursor.fetchall()In [958]: 
rowsOut[958]:[(u'Atlanta', u'Georgia', 1.25, 6), (u'Tallahassee'", u'Florida', 2.6, 3), 
(USacramento', u'California', 1.7, 5)] 


你 可 以 将 这 个 元 组 列表 传 给 DataFrame 的 构造 器 ， 但 还 需要 列 名 (位 于 游标 的 description 属 性 
中 ) 


In [959]: cursor.description Out[959]:(('a', None, None, None, None, None, None), ('b', None, 
None, None, None, None, None), (c, None, None, None, None, None, None), ('d', None, 
None, None, None, None, None))In [960]: DataFrame(rows， 
columns=zip(*cursor.description)[0])Out[960]: ab c d0 Atlanta Georgia 1.25 61 Tallahassee 
Florida 2.60 32 Sacramento California 1.70 5 


这 种 数据 规整 操作 相当 多 ， 你 肯定 不 想 每 查 一 次 数据 库 就 重 写 一 次 。pandas 有 一 个 可 以 简化 
该 过 程 的 read_frame 部 数 (位 于 pandas.io.sql 模 块 ) 。 只 需 传 人 select 语 句 和 连接 对 象 即 可 : 


In [961]: import pandas.io.sql as sqlln [962]: sql.read frame!('select * from test， 
con)Out[962]: ab c d0 Atlanta Georgia 1.25 61 Tallahassee Florida 2.60 32 Sacramento 
California 1.70 5 


存 取 MongoDB 中 的 数据 


NoSQL 数 据 库 有 许多 不 同 的 形式 。 有 些 是 简单 的 字典 式 键 值 对 存储 〈 如 BerkeleyDB 和 Tokyo 
Cabinet) ， 另 一 些 则 是 基于 文档 的 〈 其 中 的 基本 单元 是 字典 型 的 对 象 ) 。 本 例 选 用 的 是 
MongoDB (http://mongodb.org) 。 我 先 在 自己 的 电脑 上 启动 一 个 MongoDB 实 例 ， 然 后 用 
pymongo (MongoDB 的 官方 驱动 器 ) 通过 默认 端口 进行 连接 : 


import pymongocon = pymongo.Connection('localhost'", port=27017) 


存储 在 MongoDB 中 的 文档 被 组 织 在 数据 库 的 集合 (collection) 译注 8 中 。MongoDB 服 务 器 的 
每 个 运行 实例 可 以 有 多 个 数据 库 ， 而 每 个 数据 库 又 可 以 有 多 个 集合 。 假 设 你 想 保存 之 前 通过 
Twitter API 获 取 的 数据 。 首 先 ， 我 可 以 访问 tweets 集 合 (暂时 还 是 空 的 ) 


tweets = con.db.tweets 


然后 ， 我 将 那 组 tweet 加 载 进 来 并 通过 tweets.save (用 于 将 Python 字典 宇和 信 MongoDB) 逐个 
存 人 集合 中 : 


import requests, jsonurl = 'http://search.twitter.com/search.json?q=python%20pandas'data = 
json.loads(requests.get(url).text)for tweet in data['results']: tweets.save(tweet) 


现在 ， 如 果 我 想 从 该 集合 中 取出 我 自己 发 的 tweet (如 果 有 的 话 ) ， 可 以 用 下 面 的 代码 对 集合 
进行 查询 : 
cursor = tweets.find(ffrom_user: wesmckinn )) 


返回 的 游标 是 一 个 迭代 器 ， 它 可 以 为 每 个 文档 产生 一 个 字典 。 跟 之 前 一 样 ， 我 可 以 将 其 转换 
为 一 个 DataFrame。 此 外 ， 还 可 以 只 获取 各 tweet 的 部 分 字段 : 


tweet fields = [created at, from_user，id, text]result = DataFrame!(list(cursor), 
columns=tweet fields) 


译注 8 
: 如 果实 在 不 明白 ， 可 直接 想象 成 表 。 
第 7 章 ”数据 规整 化 : 清理 、 转 换 、 合 并 、 重 塑 


数据 分 析 和 建 模 方面 的 大 量 编程 工作 都 是 用 在 数据 准备 上 的 : 加 载 、 清 理 、 转 换 以 及 重 塑 。 
有 时 候 ， 存 放 在 文件 或 数据 库 中 的 数据 并 不 能 满足 你 的 数据 处 理 点 用 的 要 求 。 许 多 人 都 选择 
使 用 通用 编程 语言 (如 Python、Perl、R 或 Java) 或 UNIX 文 本 处 理工 具 (如 sed 或 awk) 对 数 
据 格式 进行 专门 处 理 。 幸 运 的 是 ，pandas 和 Python 标准 库 提 供 了 一 组 高 级 的 、 灵 活 的 、 高 效 
的 核心 函数 和 算法 ， 它 们 使 你 能 够 轻松 地 将 数据 规整 化 为 正确 的 形式 。 

如 果 你 发 现 了 一 种 本 书 或 pandas 库 中 没有 的 数据 操作 方式 ， 请 尽管 在 邮件 列表 或 GitHub 网 站 
上 提出 。 实 际 上 ，pandas 的 许多 设计 和 实现 都 是 由 真实 应 用 的 需求 所 驱动 的 。 

合并 数据 集 

pandas 对 象 中 的 数据 可 以 通过 一 些 内 置 的 方式 进行 合并 : 


:pandas.merge 可 根据 一 个 或 多 个 键 将 不 同 DataFrame 中 的 行 连接 起 来 。SQL 或 其 他 关系 型 数 
据 库 的 用 户 对 此 应 该 会 比较 熟悉 ， 因 为 它 实现 的 就 是 数据 库 的 连接 操作 。 


'pandas.concat 可 以 治 着 一 条 轴 将 多 个 对 象 堆 各 到 一 起 。 


:实例 方法 combinefirst 可 以 将 重复 数据 编 接 在 一 起 ， 用 一 个 对 象 中 的 值 填 充 另 一 个 对 象 中 的 缺 
失 值 。[ 译 注 1](#809468440711498- 

YiZhulTong Su Lai ShuoCha_ Bu_Duo Jiu_Shi_ Shu Ju_ Ku De Quan Wai Lian JieZ 
hu_YiCha_Bu_DuoHeQuan Wai Lian_JieZhe Lang Ge Ci_ Jian Dan _ Di ShuoJiu_ Sh, 
) 


我 将 分 别 对 它们 进行 讲解 ， 并 给 出 一 些 例 子 。 本 书 剩余 部 分 的 示例 中 将 经 常用 到 它们 。 
数据 库 风 格 的 DataFrame 合 并 


数据 集 的 合并 (merge) 或 连接 (join) 运算 是 通过 一 个 或 多 个 键 将 行 链接 起 来 的 。 这 些 运算 
是 关系 型 数据 库 的 核心 。pandas 的 merge 函 数 是 对 数据 应 用 这 些 算法 的 主要 切入 点 。 


我 们 以 一 个 简单 的 例子 开始 : 


In [15]: df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], ...: 'data1': range(7)})In [16]: df2 = 
DataFrame({'key': ['a', 'b', 'd'], ...: 'data2': range(3)})In [17]: df1Out[17]: data1 key0 0 b1 1 b2 
2a3 3 c44a55a66bln[18]:df2O0ut[18]: data2 key0 0a1 1b22d 


这 是 一 种 多 对 一 的 合并 。df1 中 的 数据 有 多 个 被 标记 为 a 和 b 的 行 ， 而 df2 中 key 列 的 每 个 值 则 仅 
对 应 一 行 。 对 这 些 对 象 调用 merge 即 可 得 到 : 


In [19]: pd.merge(df1, df2)Out[19]: data1 key data20 2a014a025a030b141b156b1 


注意 ， | 如 果 没 有 指定 ，merge 就 会 将 重 司 列 的 列 名 当做 
键 。 不 过 ， 最 好 显 式 指定 一 下 : 


In [20]: pd.merge(df1, df2, on='key')Out[20]: data1 key data20 2a014a025a030b141 
b156b1 
如 果 两 个 对 象 的 列 名 不 同 ， 也 可 以 分 别 进行 指定 : 


In [21]: df3 = DataFrame({'Ikey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], ...: 'data1': range(7)})In [22]: df4 = 

DataFrame({'rkey': ['a', 'b', 'd'], ...: 'data2': range(3)}))In [23]: pd.merge(df3, df4, left_on='Ikey,, 
right_on='rkey')Out[23]: data1 Ikey data2 rkey0 2a0a14a0a25a0a30b1b41b1b5 

6b1b 


可 能 你 已 经 注意 到 了 ， 结 果 里 面 c 和 d 以 及 与 之 相关 的 数据 消失 了 。 默 认 情 况 下 ，merge 做 的 
是 "inner" 连 接 ; 结果 中 的 键 是 交集 。 其 他 方式 还 有 "left"、"right" 以 及 "outer"。 外 连接 求 取 的 是 
键 的 并 集 ， 组 合 了 左 连 接 和 右 连 接 的 效果 : 


In [24]: pd.merge(df1, df2, how='outer)Out[24]: data1 key data20 2a 014a025a030b14 
1b156b163cNaN7 NaNd2 


多 对 多 的 合并 操作 非常 简单 ， 无 需 额 外 的 工作 。 如 下 所 示 : 


In [25]: df1 = DataFrame(fkey': ['b', 'b', 'a', 'c', 'a', 'b'], ...: 'data1': range(6)})In [26]: df2 = 
DataFrame({'key': ['a', 'b', 'a', 'b', 'd'], ...: 'data2': range(5)})In [27]: df1Out[27]: data1 key0 0 
b1 1 b2 2 a3 3 c4 4 a5 5 bln [28]: df2Out[28]: data2 key0 0 a1 1 b2 2 a3 3 b4 4 dlIn [29]: 
pd.merge(df1, df2, on='key', how='left)Out[29]: data1 key data20 2a 012a224a034a24 
ob150b361b171b385b195b3103cNaN 


多 对 多 连接 产生 的 是 行 的 笛 卡 尔 积 。 由 于 左边 的 DataFrame 有 3 个 "b" 行 ， 右 边 的 有 2 个 ， 所 以 
最 终结 果 中 就 有 6 个 "b" 行 。 连 接 方式 只 影响 出 现在 结果 中 的 键 : 


In [30]: pd.merge(df1, df2, how='inner)Out[30]: data1 key data20 2a 012a224a034a24 
ob150b361b171b385b195b3 


要 根据 多 个 键 进行 合并 ， 传 人 一 个 由 列 名 组 成 的 列表 即 可 : 


In [31]: left = DataFrame(fkey1: [foo, foo',，bar], ...: 'key2': ['one'", 'two'", 'one'], ...: 'Ilval': [1, 2， 
3]})In [32]: right = DataFrame({key1': [foo', 'foo', 'bar', "bar'], ...: 'key2': ['one', 'one', 'one,, 
'two'], ...: 'rval': [4, 5, 6, 7]})In [33]: pd.merge(left, right, on=['key1'", 'key2', 
how='outer)Out[33]: key1 key2 lval rval0 bar one 3 61 bar two NaN 72 foo one 1 43 foo one 
1 54 foo two 2 NaN 


结果 中 会 出 现 哪 些 键 组 合 取决 于 所 选 的 合并 方式 ， 你 可 以 这 样 来 理解 : 多 个 键 形成 一 系列 元 
组 ， 并 将 其 当做 单个 连接 键 (当然 ， 实 际 上 并 不 是 这 么 回 事 ) 。 


警告 : 在 进行 列 一 列 连 接 时 ，DataFrame 对 象 中 的 索引 会 被 丢弃 。 


对 于 合并 运算 需要 考虑 的 最 后 一 个 问题 是 对 重复 列 名 的 处 理 。 哩 然 你 可 以 手工 处 理 列 名 重 党 
的 问题 〈( 稍 后 将 会 介绍 如 何 重 命名 轴 标 签 ) ， 但 merge 有 一 个 更 实用 的 suffixes 选 项 ， 用 于 指 
定 附加 到 左右 两 个 DataFrame 对 象 的 重生 列 名 上 的 字符 捉 : 


In [34]: pd.mergel(left, right, on='key1')Out[34]: key1 key2_x lval key2 _y rval0 bar one 3 one 
61 bar one 3 two 72 foo one 1 one 43 foo one 1 one 54 foo two 2 one 45 foo two 2 one SIn 
[35]: pd.merge(left, right, on='key1', suffixes=(” left，_right))Out[35]: key1 key2_left lval 
key2_right rval0 bar one 3 one 61 bar one 3 two 72 foo one 1 one 43 foo one 1 one 54 foo 
two 2 one 45 foo two 2 one 5 


merge 的 参数 请 参见 表 7-1。 索 引 上 的 连接 将 在 下 一 节 中 讲解 。 


表 7-1: merge 国 数 的 参数 


参数 说 明 
left 参与 合并 的 左 侧 DataFrame 
right 参与 合并 的 右 侧 DataFrame 


how “nner 、 “outer 、 “ef 、“Trtight” 其 中 之 一 默认 为 


“inner” 


表 7-1: merge 求 数 的 参数 ( 续 ) 


参数 说 明 

on 用 于 连接 的 列 名 。 必 须 存 在 于 左右 两 个 DataFrame 对 象 中 。 如 果 未 指 
定 ， 且 其 他 连接 键 也 未 指定 ， 则 以 left 和 right 列 名 的 交集 作为 连接 键 

left_on 左 侧 DataFrame 中 用 作 连 接 键 的 列 

right_on 右 侧 DataFrame 中 用 作 连 接 键 的 列 

left_index 将 左 侧 的 行 素 引用 作 其 连接 键 

right_index 类 似 于 left_index 

sort 根据 连 eh 合并 后 的 数据 进行 排序 ， 默 认为 True。 有 时 在 处 理 大 数 
据 集 时 ， 禁 | 有 该 选项 可 获得 更 好 的 性 能 

suffixes 字符 串 值 元 组 ， 用 于 追加 到 重 必 列 名 的 末尾 ， 默 认为 (_x', '_y')。 例 
如 ， 如 果 坝 右 两 个 DataFrame 对 象 都 有 “data”， 则 结果 中 就 会 出 现 
“data_x” 和 “data_y” 

copy 设置 为 False， 可 以 在 某 些 特殊 情况 下 避免 将 数据 复制 到 结果 数据 结构 


中 。 黑 认 总 是 复制 


索引 上 的 合并 


有 时 候 ，DataFrame 中 的 连接 键 位 于 其 索引 中 。 在 这 种 情况 下 ， 你 可 以 传人 left_index=True 或 
right_index=True (或 两 个 都 传 ) 以 说 明 索 引 应 该 被 用 作 连 接 键 : 


In [36]: left1 = DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'], ....: 'value': range(6)})In [37]: right1 = 
DataFrame({'group_val': [3.5, 7]}, index=['a", 'b'])In [38]: left1Out[38]: key value0 a O01 b 12 a 
23 a 34 b 45 c SIn [39]: right1Out[39]: group_vala 3.5b 7.0In [40]: pd.mergel(left1, right1, 
left on='key', right_index=True)Out[40]: key value group_val0 a0 3.52a23.53a33.51b1 
7.04b47.0 


由 于 默认 的 merge 方 法 是 求 取 连 接 键 的 交集 ， 因 此 你 可 以 通过 外 连接 的 方式 得 到 它们 的 并 集 : 


In [41]: pd.mergel(left1, right1, left on='key', right_index=True, how='outer)Out[41]: key 
value group val0a0 3.52a23.53a33.51b17.04b47.05c5 NaN 


对 于 层次 化 索引 的 数据 ， 事 情 就 有 点 复杂 了 : 


In [42]: lefth = DataFrame({'key1': [Ohio', 'Ohio', 'Ohio', 'Nevada'，Nevada], ...: 'key2': [2000, 
2001, 2002, 2001, 2002], ...: 'data': np.arange(5.)})In [43]: righth = 
DataFrame(np.arange(12).reshape((6, 2)), ...: index=[[Nevada', 'Nevada', 'Ohio', 'Ohio,, 
'Ohio', 'Ohio", ...: [2001, 2000, 2000, 2000, 2001, 2002]], …: columns=['event1', 'event2"])In 
[44]: lefthOut[44]: data key1 key20 0 Ohio 20001 1 Ohio 20012 2 Ohio 20023 3 Nevada 
20014 4 Nevada 2002In [45]: righthOut[45]: event1 event2Nevada 2001 0 1 2000 2 3Ohio 
2000 4 5 2000 6 7 2001 8 9 2002 10 11 


这 种 情况 下 ， 你 必须 以 列表 的 形式 指明 用 作 合 并 键 的 多 个 列 ( 注 意 对 重复 索引 值 的 处 理 ) 


In [46]: pd.merge(lefth, righth, left_on=['key1'", "key2'], right index=True)Out[46]: data key1 
key2 event1 event23 3 Nevada 2001 0 10 0 Ohio 2000 4 50 0 Ohio 2000 6 71 1 Ohio 2001 8 
92 2 Ohio 2002 10 11In [47]: pd.mergel(lefth, righth, left_on=['key1'", 'key2", ...: 
right_index=True, how='outer)Out[47]: data key1 key2 event1 event24 NaN Nevada 2000 2 
33 3 Nevada 2001 0 14 4 Nevada 2002 NaN NaN0 0 Ohio 2000 4 50 0 Ohio 2000 6 71 1 
Ohio 2001 8 92 2 Ohio 2002 10 11 


同时 使 用 合并 双方 的 索引 也 没 问题 : 


In [48]: left2 = DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'"], .… columns=['Ohio,, 
'Nevada'])In [49]: right2 = DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]], ...: index=['b', 'c,, 
'd', 'e'], columns=['Missouri', 'Alabama'])In [50]: left2Out[50]: Ohio Nevadaa 1 2c 3 4e 5 6In 
[51]: right2Out[51]: Missouri Alabamab 7 8c 9 10d 11 12e 13 14In [52]: pd.merge(left2, 
right2, how='outer, left_index=True, right_index=True)Out[52]: Ohio Nevada Missouri 
Alabamaa 12 NaN NaNb NaN NaN 7 8c 3 49 10d NaN NaN 11 12e 56 13 14 


DataFrame 还 有 一 个 join 实 例 方法 ， 它 能 更 为 方便 地 实现 按 索引 合并 。 它 还 可 用 于 合并 多 个 带 
有 相同 或 相似 索引 的 DataFrame 对 象 ， 而 不 管 它们 之 间 有 没有 重合 的 列 。 在 上 面 那 个 例子 
中 ， 我 们 可 以 编写 : 


In [53]: left2.join(right2, how='outer)Out[53]: Ohio Nevada Missouri Alabamaa 1 2 NaN 
NaNb NaN NaN78c34910dNaN NaN 11 12e 56 13 14 


由 于 一 些 历史 原因 (早期 版 本 的 pandas) ，DataFrame 的 join 方法 是 在 连接 键 上 做 左 连接 。 它 
还 支持 参数 DataFrame 的 索引 跟 调 用 者 DataFrame 的 某 个 列 之 间 的 连接 : 


In [54]: left1.join(right1, on='key')Out[54]: key value group val0a0 3.51b17.02a23.53a 
33.54b47.05c5NaN 


最 后 ， 对 于 简单 的 索引 合并 ， 你 还 可 以 向 join 传 入 一 组 DataFrame (后 面 我 们 会 介绍 更 为 通用 
的 concat 函 数 ， 它 也 能 实现 此 功能 


In [55]: another = DataFrame([[7., 8.], [9., 10.], [11., 12.], [16., 17.]], ...: index=['a', 'c'", 'e", f], 
columns=['New York', 'Oregon'])In [56]: left2.join([right2, anothen)Out[56]: Ohio Nevada 
Missouri Alabama New York Oregona 12 NaN NaN78c34910910e5613141112In 
[57]: left2.join([right2, another], how='outer)Out[57]: Ohio Nevada Missouri Alabama New 
York Oregona 12 NaN NaN 7 8b NaN NaN78NaNNaNc34910910dNaN NaN 11 12 
NaN NaNe 56 13 14 11 12f NaN NaN NaN NaN 16 17 


轴 向 连接 


另 一 种 数据 合并 运算 也 被 称 作 连接 (concatenation) 、 绑 定 (binding) 或 堆 受 
(stacking) 。NumPy 有 一 个 用 于 合并 原始 NumPy 数 组 的 concatenation 画 数 : 


In [58]: arr = np.arange(12).reshape((3, 4))In [59]: arrOut[59]:array([[ 0, 1, 2, 3], [4, 5, 6, 7], [ 
8, 9, 10, 11]])In [60]: np.concatenate([arr arr], axis=1)Out[60]:array([[ 0, 1, 2, 3, 0, 1, 2, 3], [ 
4, 5, 6, 7, 4, 5, 6, 7], [ 8, 9, 10, 11, 8, 9, 10, 11]]) 


对 于 pandas 对 象 ( 如 Series 和 DataFrame) ， 带 有 标签 的 轴 使 你 能 够 进一步 推广 数组 的 连接 
运算 。 具 体 点 说 ， 你 还 需要 考虑 以 下 这 些 东 西 : 


如果 各 对 象 其 他 轴 上 的 索引 不 同 ， 那 些 轴 应 该 是 做 并 集 还 是 交集 ? 
.结果 对 象 中 的 分 组 需要 各 不 相同 吗 ? 
:用 于 连接 的 轴 重 要 吗 ? 


pandas 的 concat 范 数 提供 了 一 种 能 够 解决 这 些 问题 的 可 靠 方 式 。 我 将 给 出 一 些 例 子 来 讲解 其 
使 用 方式 。 假 设 有 三 个 没有 重 壹 索引 的 Series : 


In [61]: s1 = Series([0, 1], index=['a", 'b'])In [62]: s2 = Series([2, 3, 4], index=['c'", 'd', 'e'])In 
[63]: s3 = Series([5, 6], index=[f', 'g']) 


对 这 些 对 象 调 用 concat 可 以 将 值 和 索引 粘 合 在 一 起 : 
In [64]: pd.concat([s1, s2, s3])Out[64]:a Ob 1c 2d 3e 4f 5g 6 


默认 情况 下 ，concat 是 在 axis=0 上 工作 的 ， 最 终 产 生 一 个 新 的 Series。 如 果 传 入 axis=1， 则 结 
果 就 会 变 成 一 个 DataFrame (axis=1 是 列 ) 


In [65]: pd.concat([s1, s2, s3], axis=1)Out[65]: 0 1 2a 0 NaN NaNb 1 NaN NaNc NaN 2 
NaNd NaN 3 NaNe NaN 4 NaNf NaN NaN 5g NaN NaN 6 


这 种 情况 下 ， 另 外 一 条 轴 上 没有 重合 ， 从 索引 的 有 序 并 集 (外 连接 ) 上 就 可 以 看 出 来 。 传 人 


join='inner 即 可 得 到 它们 的 交集 : 


In [66]: s4 = pd.concat([s1 * 5, s3])In [67]: pd.concat([s1, s4], axis=1) In [68]: pd.concat([s1, 
s4], axis=1, join="inner')Out[67]: Out[68]:0 10 1a00a00b15b15fNaNSgNaN6 


你 可 以 通过 join_axes 指 定 要 在 其 他 轴 上 使 用 的 索引 : 


In [69]: pd.concat([s1, s4], axis=1, join _axes=[['a', 'c'", 'b', 'e"]])Out[69]: 0 1a 0 Oc NaN NaNb 1 
5e NaN NaN 


不 过 有 个 问题 ， 参 与 连接 的 片段 在 结果 中 区 分 不 开 。 假 设 你 想 要 在 连接 轴 上 创建 一 个 层次 化 
索引 。 使 用 keys 参 数 即 可 达到 这 个 目的 : 


In [70]: result = pd.concat([s1, s1, s3], keys=['one'， two', three])ln [71]: resultOut[71]:one a 0 
b 1two a0b 1three f5 g 6# 稍 后 将 详细 讲解 unstack 丁 数 In [72]: result.unstack()Out[72]: a bf 
gone01NaN NaNtwo01NaN NaNthree NaN NaN 56 


如 果 治 着 axis=1 对 Series 进 行 合 并 ， 则 keys 就 会 成 为 DataFrame 的 列 头 : 


In [73]: pd.concat([s1, s2, s3], axis=1, keys=['one', two', three])Out[73]: one two threea 0 
NaN NaNb 1 NaN NaNc NaN 2 NaNd NaN 3 NaNe NaN 4 NaNf NaN NaN 5g NaN NaN 6 


同样 的 逻辑 对 DataFrame 对 象 也 是 一 样 : 


In [74]: df1 = DataFrame(np.arange(6).reshape(3, 2), index=['a", 'b', 'c'], ...: columns=['one,, 
'two'])In [75]: df2 = DataFrame(5 + np.arange(4).reshape(2, 2), index=['a", 'c'], ...: columns= 
[three', four])ln [76]: pd.concat([df1, df2], axis=1, keys=['level1'", 'level2'])Out[76]: level1 


level2 one two three foura 0 156b23NaNNaNc4578 
如 果 传 入 的 不 是 列表 而 是 一 个 字典 ， 则 字典 的 键 就 会 被 当做 keys 选 项 的 值 : 


In [77]: pd.concat({'level1': df1, "level2": df2}, axis=1)Out[77]: level1 level2 one two three 
foura0156b23NaNNaNc4578 


此 外 还 有 两 个 用 于 管理 层次 化 率 引 创建 方式 的 参数 〈 参 见 表 7-2) 


In [78]: pd.concat([df1, df2], axis=1, keys=['level1", ‘level2", ...: names=['upper, 
lower])oOut[78]:upper level1 level2lower one two three foura 0 156b23NaNNaNc4578 


最 后 一 个 需要 考虑 的 问题 是 ， 跟 当前 分 析 工 作 无 关 的 DataFrame 行 索引 译注 2 : 


In [79]: df1 = DataFrame(np.random.randn(3, 4), columns=['a', 'b', 'c', 'd'])In [80]: df2 = 
DataFrame(np.random.randn(2, 3), columns=['b', 'd, 'a])In [81]: df1Out[81]:a bc d0 
-0.204708 0.478943 -0.519439 -0.5557301 1.965781 1.393406 0.092908 0.2817462 
0.769023 1.246435 1.007189 -1.296221In [82]: df2Out[82]: b d a0 0.274992 0.228913 
1.3529171 0.886429 -2.001637 -0.371843 


在 这 种 情况 下 ， 传 入 ignore_index=True 即 可 : 


In [83]: pd.concat([df1, df2], ignore_index=True)Out[83]: ab c d0 -0.204708 0.478943 
-0.519439 -0.5557301 1.965781 1.393406 0.092908 0.2817462 0.769023 1.246435 
1.007189 -1.2962213 1.352917 0.274992 NaN 0.2289134 -0.371843 0.886429 NaN 
-2.001637 


表 7-2: concat 函 数 的 参数 


参数 说 明 

objs 参与 连接 的 pandas 对 象 的 列表 或 字典 。 唯 一 必需 的 参数 

axis 旨 明 连接 的 轴 向 ， 默 认为 0 

join “inner”、“outer” 其 中 之 一 ， 默 认为 “outer”。 指 明 其 他 轴 向 上 
的 索引 是 按 交 集 (inner) 还 是 并 集 (outer) 进行 合并 

join_axes 指明 用 于 其 他 n-1 条 轴 的 索引 ， 不 执行 并 集 / 交 集运 算 

keys 与 连接 对 象 有 关 的 值 ， 用 于 形成 连接 轴 向 上 的 层次 化 索引 。 可 以 是 人 
意 值 的 列表 或 数组 、 元 组 数组 、 数 组 列表 a 置 成 多 级 数 
组 的 话 ) 

levels 指定 用 作 层 次 化 索引 各 级 别 上 的 索引 ， 如 果 设 置 了 keys 的 话 早 守 ， 

names 用 于 创建 分 层级 别 的 名 称 ， 如 果 设 置 了 pi (或 ) levels 的 话 

verify_integrity 检查 结果 对 象 新 轴 上 的 重复 情况 ， 如 果 发 现 则 引发 异常 。 默 认 


(False) 允许 重复 





ignore_index ”不 保留 连接 轴 上 的 索引 ， 产 生 一 组 新 索引 rangettotal_length) 
译注 3 : 就 是 外 层级 别 的 索引 。 
合并 重 和 数 据 


还 有 一 种 数据 组 合 问 题 不 能 用 简单 的 合并 (merge) 或 连接 (concatenation) 运算 来 处 理 。 
比如 说 ， 你 可 能 有 素 引 全 部 或 部 分 重 受 的 两 个 数据 集 。 给 这 个 例子 增加 一 点 启发 性 ， 我 们 使 
用 NumPy 的 where 函 数 ， 它 用 于 表达 一 种 矢量 化 的 if-else : 

In [84]: a = Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan], ...: index=[f, ee, dc 'b', 'a"])In 
[85]: b = Series(np.arangel(len(a), dtype=np.float64), ...: index=[f", 'e", 'd', 'c'", 'b', 'a"])In [86]: 
b[-1] = np.nanln [87]: a In [88]: b In [89]: np.where(pd.isnull(a), b, a)Out[87]: Out[88]: 
Out[89]:fNaNf0f0.0e2.5e1e2.5dNaNd2d2.0c3.5c3c3.5b4.5b4b4.5aNaNa 
NaN a NaN 


Series 有 一 个 combine _first 方 法， 实现 的 也 是 一 样 的 功能 ， 而 且 会 进行 数据 对 齐 
In [90]: b[:-2].combine _first(a[2:])Out[90]:a NaNb 4.5c 3.0d 2.0e 1.0f 0.0 


对 于 DataFrame，combine_first 自 然 也 会 在 列 上 做 同样 的 事情 ， 因 此 你 可 以 将 其 看 做 : 用 参 
数 对 象 中 的 数据 为 调用 者 对 象 的 缺失 数据 “ 打 补 丁 ”: 


In [91]: df1 = DataFrame({'a': [1., np.nan, 5., np.nan], ...: 'b': [np.nan, 2., np.nan, 6.], ...: '¢ 
range(2, 18, 4)})In [92]: df2 = DataFrame(fa': [5., 4., np.nan, 3., 7.], ...: 'b': [np.nan, 3., 4., 6,， 
8.]})In [93]: df1.combine first(df2)Out[93]:a b c0 1 NaN 214 2 62 54 10336 14478 NaN 
译注 1 


: 通俗 来 说 ， 差 不 多 就 是 数据 库 的 全 外 连接 ( 注 ee 两 个 词 ) 。 简 单 地 
说 ， 就 是 先 从 第 一 个 对 象 中 选 值 ， 不 行 就 再 去 第 二 个 对 象 中 选 


译注 2 
: 也 就 是 说 那些 行 索 引 是 无 意义 的 。 
重 塑 和 轴 向 旋转 


有 许多 用 于 重新 排列 表格 型 数据 的 基础 运算 。 这 些 画 数 也 称 作 重 塑 (reshape) 或 轴 向 旋转 
(pivot) 运算 。 


重 塑 层次 化 素 引 

人 了 一 种 具有 良好 一 致 性 的 方式 。 主 要 功能 
stack : 将 数据 的 列 “ 旋 转 ” 为 行 。 

unstack : 将 数据 的 行 “ 旋 转 ” 为 列 。 


我 将 通过 一 系列 的 范例 来 讲解 这 些 操 作 。 接 下 来 看 一 个 简单 的 DataFrame， 其 中 的 行列 索引 
均 为 字符 串 : 


In [94]: data = DataFrame(np.arange(6).reshape((2, 3)), .… index=pd.Index([Ohio， 
Colorado], name='state ), ...: columns=pd.Index(['one', two', three] name=number))In 
[95]: dataOut[95]:number one two threestateOhio 0 1 2Colorado 34 5 


使 用 该 数据 的 stack 方 法 即 可 将 列 转 换 为 行 ， 得 到 一 个 Series : 


In [96]: result = data.stack()ln [97]: resultOut[97]:state numberOhio one 0 two 1 three 
2Colorado one 3 two 4 three 5 


对 于 一 个 层次 化 索引 的 Series， 你 可 以 用 unstack 将 其 重 排 为 一 个 DataFrame : 
In [98]: result.unstack()Out[98]:number one two threestateOhio 0 12Colorado 345 


默认 情况 下 ，unstack 操 作 的 是 最 内 层 (stack 也 是 如 此 ) 。 传 入 分 层级 别 的 编号 或 名 称 即 可 对 
其 他 级 别 进行 unstack 操 作 : 


In [99]: result.unstack(0) In [100]: result.unstack('state')Out[99]: Out[100]:state Ohio 
Colorado state Ohio Coloradonumber numberone 0 3 one 0 3two 1 4 two 1 4three 2 5 three 
25 


如 果 不 是 所 有 的 级 别 值 都 能 在 各 分 组 中 找到 的 话 ， 则 unstack 操 作 可 能 会 引入 缺失 数据 : 


In [101]: s1 = Series([0, 1, 2, 3], index=[a,'b',"c, 'd'])In [102]: s2 = Series([4, 5, 6], index= 
['c', 'd', 'e'])In [103]: data2 = pd.concat([s1, s2], keys=['one', 'two'])In [104]: 
data2.unstack()Out[104]:a bcdeone0123NaNtwoNaN NaN456 


stack 默 认 会 滤 除 缺失 数据 ， 因 此 该 运算 是 可 道 的 : 


In [105]: data2.unstack().stack() In [106]: data2.unstack().stack(dropna=False) Out[105]: 
Out[106]:one a0Oonea0b1ib1ic2c2d3d3twoc4eNaNd5twoaNaNe6bNaNc4 
d5e6 


在 对 DataFrame 进 行 unstack 操 作 时 ， 作 为 旋转 轴 的 级 别 将 会 成 为 结果 中 的 最 低级 别 : 


In [107]: df = DataFrame!({'left': result, 'right': result + 5}, .… columns=pd.Index([left，right]， 
name='side ))In [108]: dfOut[108]:side left rightstate numberOhio one 0 5 two 1 6 three 2 
7Colorado one 3 8 two 4 9 three 5 10In [109]: df.unstack(state ) In [110]: 
df.unstack('state').stack('side')Out[109]: Out[110]:side left right state Ohio Coloradostate 
Ohio Colorado Ohio Colorado number sidenumber one left 0 30Nne 0 3 58 right 5 8two 146 
9 two left 1 4three 2 5 7 10 right 6 9 three left 2 5 right 7 10 


将 “长 格式 "旋转 为 " 宽 格 式 ” 


时 间 序 列 数据 通常 是 以 所 谓 的 “长 格式 ”(long) 或 " 堆 赤 格式 ”(stacked) 存储 在 数据 库 和 CSV 
中 的 : 译注 4 


In [116]: Idata[:10]Out[116]: date item value0 1959-03-31 00:00:00 realgdp 2710.3491 1959- 
03-31 00:00:00 infl 0.0002 1959-03-31 00:00:00 unemp 5.8003 1959-06-30 00:00:00 
realgdp 2778.8014 1959-06-30 00:00:00 infl 2.3405 1959-06-30 00:00:00 unemp 5.1006 
1959-09-30 00:00:00 realgdp 2775.4887 1959-09-30 00:00:00 infl 2.7408 1959-09-30 
00:00:00 unemp 5.3009 1959-12-31 00:00:00 realgdp 2785.204 


关系 型 数据 库 (如 MySQL) 中 的 数据 经 常 都 是 这 样 存 储 的 ， 因 为 固定 架构 〈 即 列 名 和 数据 类 

型 ) 有 一 个 好 处 : 随 着 表 中 数据 的 添加 或 删除 ，item 列 中 的 值 的 种 类 能 够 增加 或 减少 。 在 上 面 
那个 例子 中 ，date 和 item 通 常 就 是 主键 (用 关系 型 数据 库 的 说 法 ) ， 不 仅 提 供 了 关系 完整 性 ， 

而 且 提 供 了 更 为 简单 的 查询 支持 。 当 然 这 也 是 有 缺点 的 : 长 格式 的 数据 操作 起 来 可 能 不 那么 

轻松 。 你 可 能 会 更 喜欢 DataFrame， 不 同 的 item 值 分 别 形成 一 列 ，date 列 中 的 时 间 值 则 用 作 索 
引 。DataFrame 的 pivot 方 法 完全 可 以 实现 这 个 转换 : 


In [117]: pivoted = ldata.pivot(date'，item', 'value')In [118]: pivoted.head()Out[118]:item infl 
realgdp unempdate1959-03-31 0.00 2710.349 5.81959-06-30 2.34 2778.801 5.11959-09-30 
2.74 2775.488 5.31959-12-31 0.27 2785.204 5.61960-03-31 2.31 2847.699 5.2 


前 两 个 参数 值 分 别 用 作 行 和 列 索 引 的 列 名 ， 最 后 一 个 参数 值 则 是 用 于 填充 DataFrame 的 数据 
列 的 列 名 。 假 设 有 两 个 需要 参与 重 塑 的 数据 列 : 


In [119]: Idata[value2] = np.random.randn(len(ldata))In [120]: Idata[:10]Out[120]: date item 
value value20 1959-03-31 00:00:00 realgdp 2710.349 1.6690251 1959-03-31 00:00:00 infl 
0.000 -0.4385702 1959-03-31 00:00:00 unemp 5.800 -0.5397413 1959-06-30 00:00:00 
realgdp 2778.801 0.4769854 1959-06-30 00:00:00 infl 2.340 3.2489445 1959-06-30 


00:00:00 unemp 5.100 -1.0212286 1959-09-30 00:00:00 realgdp 2775.488 -0.5770877 
1959-09-30 00:00:00 infl 2.740 0.1241218 1959-09-30 00:00:00 unemp 5.300 0.3026149 
1959-12-31 00:00:00 realgdp 2785.204 0.523772 


如 果 和 忽略 最 后 一 个 参数 ， 得 到 的 DataFrame 就 会 带 有 层次 化 的 列 : 


In [121]: pivoted = Idata.pivot('date'", 'item')In [122]: pivoted[:5]Out[122]: value value2item infl 
realgdp unemp infl realgdp unempdate1959-03-31 0.00 2710.349 5.8 -0.438570 1.669025 
-0.5397411959-06-30 2.34 2778.801 5.1 3.248944 0.476985 -1.0212281959-09-30 2.74 
2775.488 5.3 0.124121 -0.577087 0.3026141959-12-31 0.27 2785.204 5.6 0.000940 
0.523772 1.3438101960-03-31 2.31 2847.699 5.2 -0.831154 -0.713544 -2.370232ln [123]: 
pivoted['value'][:5]Out[123]:item infl realgdp unempdate1959-03-31 0.00 2710.349 5.81959- 
06-30 2.34 2778.801 5.11959-09-30 2.74 2775.488 5.31959-12-31 0.27 2785.204 5.61960- 
03-31 2.31 2847.699 5.2 


注意 ，pivot 其 实 只 是 一 个 快捷 方式 而 已 : 用 set index 创 建 层次 化 索引 ， 再 用 unstack 重 塑 。 


In [124]: unstacked = Idata.set_index(['date', item']).unstack(item')In [125]: 
unstacked[:7]Out[125]: value value2item infl realgdp unemp infl realgdp unempdate1959-03- 
31 0.00 2710.349 5.8 -0.438570 1.669025 -0.5397411959-06-30 2.34 2778.801 5.1 
3.248944 0.476985 -1.0212281959-09-30 2.74 2775.488 5.3 0.124121 -0.577087 
0.3026141959-12-31 0.27 2785.204 5.6 0.000940 0.523772 1.3438101960-03-31 2.31 
2847.699 5.2 -0.831154 -0.713544 -2.3702321960-06-30 0.14 2834.390 5.2 -0.860757 
-1.860761 0.5601451960-09-30 2.70 2839.022 5.6 0.119827 -1.265934 -1.063512 


译注 4 
: 由 于 作者 在 此 处 并 未 介绍 ldata 的 生成 代码 ， 而 后 面 又 需要 用 到 ， 所 以 不 能 独立 看 待 这 段 代 
码 。 下 载 的 资料 采用 的 不 是 这 个 格式 ， 需 要 义理 一 下 才 可 用 。 如 果 不 会 处 理 或 觉得 太 麻 烦 ， 


就 用 Excel 编 辑 一 下 吧 。 不 过 还 是 建议 处 理 一 下 ， 就 当做 练 手 了 。 给 个 相对 比较 简单 的 小 提 
示 : 先 加 载 进来 ， 然 后 stack， 然 后 保存 ， 然 后 再 加 载 进来 。 


数据 转换 


本 章 到 目前 为 止 介 绍 的 都 是 数据 的 重 排 。 另 一 类 重要 操作 则 是 过 滤 、 清 理 以 及 其 他 的 转换 工 
作 。 


移 除 重复 数据 
DataFrame 中 常常 会 出 现 重 复 行 。 下 面 就 是 一 个 例子 : 


In [126]: data = DataFrame({k1': [one] 3 +1two74 ...: 'k2": [1, 1, 2, 3, 3, 4, 4]})In [127]: 
dataOut[127]: k1 k20 one 11 one 12 one 23 two 34 two 35 two 46 two 4 


DataFrame 的 duplicated 方 法 返回 一 个 布尔 型 Series， 表 示 各 行 是 否 是 重复 行 : 


In [128]: data.duplicated()Out[128]:0 False1 True2 False3 False4 True5 False6 True 


还 有 一 个 和 与 此 相关 的 dropduplicates 方 法 ， 它 用 于 返回 一 个 移 除 了 重复 行 的 Data-Frame[ 译 注 
5](#809468440711498- 

YiZhu5Yuan_ Wen _ Zhe Li De Yi Si Hen_You Wen _ TiYuan_ Wen_Shuo_De_ ShiFan_Hui 
_duplicatedWei_TrueDe DataFrame) : 


In [129]: data.drop_duplicates()Out[129]: k1 k20 one 12 one 23 two 35 two 4 


这 两 个 方法 默认 会 判断 全 部 列 ， 你 也 可 以 指定 部 分 列 进行 重复 项 判断 。 假 设 你 还 有 一 列 值 ， 
且 只 希望 根据 k1 列 过 滤 重 复 项 : 


In [130]: data[v1] = range(7)In [131]: data.drop_duplicates([k1])Out[131]: k1 k2 v10 one 1 
03 two33 


duplicated 和 drop_duplicates 默 认 保 留 的 是 第 一 个 出 现 的 值 组 合 。 传 入 take_last=True 则 保留 


最 后 一 个 : 


In [132]: data.drop_duplicates(['k1", kk2], take_ last=True)Out[132]: k1 k2 v11 one 1 12 one 2 
24 two 3 46 two 46 


利用 函数 或 映射 进行 数据 转换 


在 对 数据 集 进 行 转换 时 ， 你 可 能 希望 根据 数组 、Series 或 DataFrame 列 中 的 值 来 实现 该 转换 工 
作 。 我 们 来 看 看 下 面 这 组 有 关 肉 类 的 数据 : 


In [133]: data = DataFrame!({'food': [bacon', 'pulled pork', 'bacon'", 'Pastrami", ...: 'corned 
beef', 'Bacon'", ‘pastrami', honey ham,', ...: nova lox'], ...: 'ounces': [4, 3, 12, 6, 7.5, 8, 3, 5, 
6]})In [134]: dataOut[134]: food ounces0 bacon 4.01 pulled pork 3.02 bacon 12.03 Pastrami 
6.04 corned beef 7.55 Bacon 8.06 pastrami 3.07 honey ham 5.08 nova lox 6.0 


假设 你 想 要 添加 一 列表 示 该 肉 类 食物 来 源 的 动物 类 型 。 我 们 先 编写 一 个 肉 类 到 动物 的 映射 : 


meat to_animal ={ "bacon: 'pig', "pulled pork': 'pig， 'pastrami': 'cow', "corned beef : 


cow', honey ham.': 'pig', "nova lox': 'salmon'y 


Series 的 map 方 法 可 以 接受 一 个 函数 或 含有 映射 关系 的 字典 型 对 象 ， 但 是 这 里 有 一 个 小 问题 ， 
即 有 些 肉 类 的 首 字母 大 写 了 ， 而 另 一 些 则 没有 。 因 此 ， 我 们 还 需要 将 各 个 值 转换 为 小 写 : 

In [136]: data['animal'] = data[food'].map(strIlower).map(meat to_animal) In [137]: 
data Out[137]: food ounces animal 0 bacon 4.0 pig 1 pulled pork 3.0 pig 2 bacon 


12.0 pig 3 Pastrami 6.0 cow 4 corned beef 7.5 cow 5Bacon 8.0 pig 6 pastrami 3.0 
cow 7 honey ham 5.0 pig 8 nova lox 6.0 salmon 


我 们 也 可 以 传人 一 个 能 够 完成 全 部 这 些 工作 的 酚 数 : 


In [138]: data[food'].map(lambda x: meat to_animal[x.lower()])) Out[138]: Opig 1 
pig 2pig 3cow 4cow 5pig 6cow 7pig 8salmon Name: food 


使 用 map 是 一 种 实现 元 素 级 转换 以 及 其 他 数据 清理 工作 的 便捷 方式 。 
蔡 换 值 


利用 fillna 方 法 填充 缺失 数据 可 以 看 做 值 蔡 换 的 一 种 特殊 情况 。 虽然 前 面 提 到 的 map 可 用 于 修 
改 对 象 的 数据 子 集 ， 而 replace 则 提供 了 一 种 实现 该 功能 的 更 简单 、 更 灵活 的 方式 。 我 们 来 看 
看 下 面 这 个 Series : 


In [139]: data = Series([1., -999., 2., -999., -1000., 3.]) In [140]: data Out[140]: 01 1 
-999 22 3-999 4-1000 53 


-999 这 个 值 可 能 是 一 个 表示 缺失 数据 的 标记 值 。 要 将 其 替换 为 pandas 能 够 理解 的 NA 值 ， 我 们 
可 以 利用 replace 来 产生 一 个 新 的 Series : 


In [141]: data.replace(-999, np.nan) Out[141]: 01 1NaN 22 3NaN 4-1000 5 
3 


如 果 你 希望 一 次 性 蔡 换 多 个 值 ， 可 以 传人 一 个 由 待 蔡 换 值 组 成 的 列表 以 及 一 个 蔡 换 值 : 


In [142]: data.replace([-999, -1000], np.nan) Out[142]: 01 1NaN 22 3NaN 4 
NaN 53 


如 果 希 望 对 不 同 的 值 进行 不 同 的 替换 ， 则 传人 一 个 由 蔡 换 关系 组 成 的 列表 即 可 : 


In [143]: data.replace([-999, -1000], [np.nan, 0]) Out[143]: 01 1NaN 22 3NaN 
40 53 


传人 的 参数 也 可 以 是 字典 : 


In [144]: data.replace({-999: np.nan, -1000: 0}) Out[144]: 01 1NaN 22 3NaN 4 
0 53 


重 命 名 轴 索 引 


跟 Series 中 的 值 一 样 ， 轴 标签 也 可 以 通过 图 数 或 映射 进行 转换 ， 从 而 得 到 一 个 新 对 象 。 轴 还 可 
以 被 就 地 修改 ， 而 无 需 新 建 一 个 数据 结构 。 接 下 来 看 看 下 面 这 个 简单 的 例子 : 


In [145]: data = DataFrame(np.arange(12).reshape((3, 4))， ...: index=['Ohio', 'Colorado,, 
'New York]， ...: columns=['one,', 'two', 'three'", four]) 


跟 Series 一 样 ， 轴 标签 也 有 一 个 map 方 法 : 


In [146]: data.index.map(str.upper) Out[146]: array([OHIO, COLORADO, NEW YORK]， 
dtype=object) 


你 可 以 将 其 赋值 给 index， 这 样 就 可 以 对 DataFrame 进 行 就 地 修改 了 : 


In [147]: data.index = data.index.map(strupper) In [148]: data Out[148]: one two 
three four OHIO0123 COLORADO4567 NEW YORK891011 


如 果 想 要 创建 数据 集 的 转换 版 (而 不 是 修改 原始 数据 ) ， 比 较 实 用 的 方法 是 rename : 


In [149]: data.rename(index=strtitle, columns=strupper) Out[149]: ONE TWO THREE 
FOUR Ohio0123 Colorado 4567 New York 89 1011 


特别 说 明 一 下 ，rename 可 以 结合 字典 型 对 象 实现 对 部 分 轴 标 签 的 更 新 : 


In [150]: data.rename(index={ OHIO'": 'INDIANA'}, ...:columns={three': ‘peekaboo'}) 
Out[150]: one two peekaboo four INDIANA0 123 COLORADO 4567 NEW YORK 
891011 


rename 帮 有 我们 实现 了 : 复制 DataFrame 并 对 其 索引 和 列 标签 进行 赋值 。 如 果 希 望 就 地 修改 某 
个 数据 集 ， 传 入 inplace=True 即 可 : 


# 总 是 返回 DataFrame 的 引用 In [151]: _ = data.rename(index={'OHIO': 'INDIANA', 
inplace=True) In [152]: data Out[152]: one twothreefour INDIANA0123 
COLORADO 4567 NEWYORK891011 


离散 化 和 面 元 划分 


为 了 便于 分 析 ， 连 续 数据 常常 被 离散 化 或 拆 分 为 “ 面 元 ”(bin) 。 假 设 有 一 组 人 员 数 据 ， 而 你 
希望 将 它们 划分 为 不 同 的 年 龄 组 : 


In [153]: ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] 


接 下 来 将 这 些 数据 划分 为 18 到 25”、“26 到 35”、“35 到 60” 以 及 “60 以 上 ” 几 个 面 元 。 要 实现 该 功 
能 ， 你 需要 使 用 pandas 的 cut 郴 数 : 


In [154]: bins = [18, 25, 35, 60, 100] In [155]: cats = pd.cut(ages, bins) In [156]: cats 
Out[156]: Categorical: array([(18, 25], (18, 25], (18, 25], (25, 35], (18, 25], (18, 25]， (35, 
60], (25, 35], (60, 100], (35, 60], (35, 60], (25, 35]], dtype=object) Levels (4): Index([(18, 
25], (25, 35], (35, 60], (60, 100]], dtype=object) 


pandas 返 回 的 是 一 个 特殊 的 Categorical 对 象 。 你 可 以 将 其 看 做 一 组 表示 面 元 名 称 的 字符 串 。 
实际 上 ， 它 含有 一 个 表示 不 同 分 类 名 称 的 levels 数 组 以 及 一 个 为 年 龄 数据 进行 标号 的 labels 属 
性 : 


In [157]: cats.labels Out[157]: array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1]) In [158]: 
cats.levels Out[158]: Index([(18, 25], (25, 35], (35, 60], (60, 100]], dtype=object) In [159]: 
pd.value_counts(cats) Out[159]: (18, 25]5 (35, 60] 3 (25, 35] 3 (60, 100] 1 


跟 “ 区 间 ” 的 数学 符号 一 样 ， 圆 括号 表示 开端 ， 而 方 括号 则 表示 闭 端 (包括 ) 。 哪 边 是 闭 端 可 以 
通过 right=False 进 行 修改 : 


In [160]: pd.cut(ages, [18, 26, 36, 61, 100], right=False) Out[160]: Categorical: 
array([[18, 26), [18, 26), [18, 26), [26, 36), [18, 26), [18, 26)， [36, 61), [26, 36), [61, 100), 
[36, 61), [36, 61), [26, 36)], dtype=object) Levels (4): Index([[18, 26), [26, 36), [36, 61), [61, 
100)], dtype=object) 


你 也 可 以 设置 自己 的 面 元 名 称 ， 将 labels 选 项 设置 为 一 个 列表 或 数组 即 可 : 


In [161]: group_names = [Youth', "YoungAdult', 'MiddleAged', 'Senior] In [162]: 
pd.cut(ages, bins, labels=group_names) Out[162]: Categorical: array([Youth, Youth, 
Youth, YoungAdult, Youth, Youth, MiddleAged, YoungAdult, Senior MiddleAged, 
MiddleAged, YoungAdult], dtype=object) Levels (4): Index([Youth, YoungAdult, 
MiddleAged, Senior], dtype=object) 


如 果 向 cut 传 入 的 是 面 元 的 数量 而 不 是 确切 的 面 元 边界 ， 则 它 会 根据 数据 的 最 小 值 和 最 大 值 计 
算 等 长 面 元 。 下 面 这 个 例子 中 ， 我 们 将 一 些 均匀 分 布 的 数据 分 成 四 组 : 


In [163]: data = np.random.rand(20) In [164]: pd.cut(data, 4, precision=2) Out[164]: 
Categorical: array([(0.45, 0.67], (0.23, 0.45], (0.0037, 0.23], (0.45, 0.67], (0.67, 0.9], (0.45, 
0.67], (0.67, 0.9], (0.23, 0.45], (0.23, 0.45], (0.67, 0.9], (0.67, 0.9], (0.67, 0.9], (0.23, 0.45], 
(0.23, 0.45], (0.23, 0.45], (0.67, 0.9], (0.0037, 0.23], (0.0037, 0.23], (0.23, 0.45], (0.23, 0.45]], 
dtype=object) Levels (4): Index([(0.0037, 0.23], (0.23, 0.45], (0.45, 0.67], (0.67, 0.9]], 
dtype=object) 


qcut 是 一 个 非常 类 似 于 cut 的 函数 ， 它 可 以 根据 样本 分 位 数 对 数据 进行 面 元 划分 。 根 据 数据 的 
分 布 情况 ，cut 可 能 无 法 使 各 个 面 元 中 含有 相同 数量 的 数据 点 。 而 qcut 由 于 使 用 的 是 样本 分 位 
数 ， 因 此 可 以 得 到 大 小 基本 相等 的 面 元 : 


In [165]: data = np.random.randn(1000)# 正 态 分 布 In [166]: cats = pd.qcut(data, 4)# 按 
四 分 位 数 进行 切割 ”In [167]: cats Out[167]: Categorical: array([(-0.022, 0.641], [-3.745， 
-0.635], (0.641, 3.26], ..., (-0.635, -0.022], (0.641, 3.26], (-0.635, -0.022]], dtype=object) 
Levels (4): Index([[-3.745, -0.635], (-0.635, -0.022], (-0.022, 0.641], (0.641, 3.26]], 
dtype=object) In [168]: pd.value counts(cats) Out[168]: [-3.745, -0.635] 250 (0.641, 
3.26] 250 (-0.635, -0.022] 250 (-0.022, 0.641] 250 


跟 cut 一 样 ， 也 可 以 设置 自 定义 的 分 位 数 (0 到 1 之 间 的 数值 ， 包 含 端 点 ) 


In [169]: pd.qcut(data, [0, 0.1, 0.5, 0.9, 1.]) Out[169]: Categorical: array([(-0.022, 
1.302], (-1.266, -0.022], (-0.022, 1.302], ..., (-1.266, -0.022], (-0.022, 1.302], (-1.266, 
-0.022]], dtype=object) Levels (4): Index([[-3.745, -1.266], (-1.266, -0.022], (-0.022, 1.302], 
(1.302, 3.26]], dtype=object) 


本 章 生 后 在 讲解 聚合 和 分 组 运算 时 会 再 次 用 到 cut 和 qcut， 因 为 这 两 个 离散 化 函数 对 分 量 和 分 
组 分 析 非 常 重要 。 


仿 测 和 过 滤 异 常 值 


异常 值 译注 6 (outlier) 的 过 滤 或 变换 运算 在 很 大 程度 上 其 实 就 是 数组 运算 。 来 看 一 个 含有 正 
态 分 布 数据 的 DataFrame : 


In [170]: np.random.seed(12345) In [171]: data = DataFrame(np.random.randn(1000， 
4)) In [172]: data.describe() Out[172]: 0123 count 1000.000000 1000.000000 
1000.000000 1000.000000 mean -0.067684 0.067924 0.025598 -0.002298 std 0.998035 
0.992106 1.006835 0.996794 min -3.428254 -3.548824 -3.184377 -3.745356 25% 
-0.774890 -0.591841 -0.641675 -0.644144 50% -0.116401 0.101143 0.002073 
-0.013611 75% 0.616366 0.780282 0.680391 0.654328 max 3.366626 2.653656 
3.260383 3.927528 


假设 你 想 要 找 出 某 列 中 绝对 值 大 小 超过 3 的 值 : 


In [173]: col = data[3] In [174]: col[np.abs(col) > 3] Out[174]: 97 3.927528 305 
-3.399312 400 -3.745356 Name: 3 


要 选 出 全 部 含有 “超过 3 或 一 3 的 值 "的 行 ， 你 可 以 利用 布尔 型 DataFrame 以 及 any 方 法 : 


In [175]: data[(np.abs(data) > 3).any(1)] Out[175]: 0123 5-0.539741 0.476985 
3.248944 -1.021228 97 -0.774363 0.552936 0.106061 3.927528 102 -0.655054 
-0.565230 3.176873 0.959533 305 -2.315555 0.457246 -0.025907 -3.399312 324 
0.050188 1.951312 3.260383 0.963301 400 0.146326 0.508391 -0.196713 -3.745356 
499 -0.293333 -0.242459 -3.056990 1.918403 523 -3.428254 -0.296336 -0.439938 
-0.867165 586 0.275144 1.179227 -3.184377 1.369891 808 -0.362528 -3.548824 
1.553205 -2.186301 900 3.366626 -2.372214 0.851010 1.332846 


根据 这 些 条 件 ， 即 可 轻松 地 对 值 进 行 设置 。 下 面 的 代码 可 以 将 值 限制 在 区 间 一 3 到 3 以 内 : 


In [176]: data[np.abs(data) > 3] = np.sign(data)* 3 In [177]: data.describe() Out[177]: 
0123 count 1000.000000 1000.000000 1000.000000 1000.000000 mean -0.067623 
0.068473 0.025153 -0.002081 std 0.995485 0.990253 1.003977 0.989736 min -3.000000 
-3.000000 -3.000000 -3.000000 25% -0.774890 -0.591841 -0.641675 -0.644144 50% 
-0.116401 0.101143 0.002073 -0.013611 75% 0.616366 0.780282 0.680391 0.654328 
max 3.000000 2.653656 3.000000 3.000000 


np.sign 这 个 ufunc 返 回 的 是 一 个 由 1 和 一 1 组 成 的 数组 ， 表 示 原 始 值 的 符号 。 
排列 和 随机 采样 


利用 numpy.random.permutation 落 数 可 以 轻松 实现 对 Series 或 DataFrame 的 列 的 排列 工作 
(permuting， 随 机 重 排序 译注 7) 。 通 过 需要 排列 的 轴 的 长 度 调 用 permutation， 可 产生 一 个 
表示 新 顺序 的 整数 数组 : 


In [178]: df = DataFrame(np.arange(5*4).reshape(5, 4))In [179]: sampler = 
np.random.permutation(5)In [180]: samplerOut[180]: array([1, 0, 2, 3, 4]) 


然后 就 可 以 在 基于 ix 的 索引 操作 或 take 郴 数 中 使 用 该 数组 了 : 


In [181]: dfoOut[181]:012300123145672891011312131415416171819In[182]: 
df.take(sampler)Out[182]: 0 12314567001232891011312131415416171819 


如 果 不 想 用 蔡 换 的 方式 选取 随机 子 集 ， 则 可 以 使 用 permutation : 从 permutation 返 回 的 数组 中 
切 下 前 k 个 元 素 ， 其 中 k 为 期 望 的 子 集 大 小 。 虽 然 有 很 多 高 效 的 算法 可 以 实现 非 蔡 换 式 采 样 ， 
但 是 手边 就 有 的 工具 为 什么 不 用 呢 ? 


In [183]: df.take(np.random.permutation(len(df))[:3])Out[183]:0 12 3145673121314154 
16 17 18 19 


要 通过 蔡 换 的 方式 产生 样本 ， 最 快 的 方式 是 通过 np.random.randint 得 到 一 组 随机 整数 : 


In [184]: bag = np.array([5, 7, -1, 6, 4])In [185]: sampler = np.random.randint(0, len(bag), 
size=10)In [186]: samplerOut[186]: array([4, 4, 2, 2, 2, 0, 3, 0, 4, 1])In [187]: draws = 
bag.take(sampler)In [188]: drawsOut[188]: array([ 4, 4, -1, -1, -1, 5, 6, 5, 4, 7]) 


计算 指标 / 哑 交 量 


另 一 种 常用 于 统计 建 模 或 机 器 学 习 的 转换 方式 是 : 将 分 类 变量 (categorical variable) 转换 

为 “ 哑 变 量 和 矩阵 ”(dummy matrix) 或 “指标 矩阵 ”(indicator matrix) 。 如 果 DataFrame 的 某 一 
列 中 含有 k 个 不 同 的 值 ， 则 可 以 派生 出 一 个 k 列 矩阵 或 DataFrame (其 值 全 为 1 和 0) 。pandas 
有 一 个 get dummies 画 数 可 以 实现 该 功能 〈 其 实 自己 动手 做 一 个 也 不 难 ) 。 拿 之 前 的 一 个 例 
子 来 说 : 


In [189]: df = DataFrame(fkey': ['b', 'b', 'a', 'c', 'a', 'b'], ...: 'data1': range(6)})In [190]: 
pd.get dummies(df['key])Out[190]:abco01010102100300141005010 


有 时 候 ， 你 可 能 想 给 指标 DataFrame 的 列 加 上 一 个 前 级， 以 便 能 够 跟 其 他 数据 进行 合并 。 
get dummies 的 prefix 参 数 可 以 实现 该 功能 : 


In [191]: dummies = pd.get dummies(df['key], prefix='key')In [192]: df_with_dummy = 
df[f['data1"]].join(dummies)In [193]: df_with dummyOut[193]: data1 key a key bkey c0 00 
101101022100330014410055010 


如 果 DataFrame 中 的 某 行 同属 于 多 个 分 类 ， 则 事情 就 会 有 点 复杂 。 回 到 本 书 前 面 那个 
MovieLens 1M 数 据 集 上 : 译注 8 


In [194]: mnames = [movie_ id', ‘title', 'genres']In [195]: movies = 

pd.read table(ch02/movielens/movies.dat, sep="::", header=None, ...: names=mnames)In 
[196]: movies[:10]Out[196]: movie id title genres0 1 Toy Story (1995) 
Animation|Children's|Comedy1 2 Jumanji (1995) Adventure|Children's|Fantasy2 3 Grumpier 
Old Men (1995) Comedy|lRomance3 4 Waiting to Exhale (1995) ComedylDrama4 5 Father 


of the Bride Part || (1995) Comedy5 6 Heat (1995) Action|Crime|Thriller6 7 Sabrina (1995 ) 
Comedy|Romance7 8 Tom and Huck (1995) Adventure|Children's8 9 Sudden Death (1995) 
Action9 10 GoldenEye (1995) Action|Adventure|Thriller 


要 为 每 个 genre 添 加 指标 变量 就 需要 做 一 些 数据 规整 操作 。 首 先 ， 我 们 从 数据 集中 抽取 出 不 同 
的 genre 值 (注意 巧 用 set.union) 


In [197]: genre_iter = (set(x.split(|')) for x in movies.genres)In [198]: genres = 
sorted(set.union(*genre_iter)) 


现在 ， 我 们 从 一 个 全 需 DataFrame 开 始 构 建 指标 DataFrame : 

In [199]: dummies = DataFrame(np.zeros((len(movies), len(genres))), columns=genres) 
接 下 来 ， 和 迭代 每 一 部 电影 并 将 dummies 各 行 的 项 设置 为 1 : 

In [200]: for i, gen in enumerate(movies.genres): ...: dummies.ix[i, gen.split(|')] = 1 

然后 ， 再 将 其 与 movies 合 并 起 来 : 


In [201]: movieswindic = movies.join(dummies.add_prefix('Genre'))In [202]: 
movies_windic.ix[0]Out[202]:movie_id 1title Toy Story (1995)genres 
Animation|Children's|ComedyGenre_Action OGenre_ Adventure 0Genre_Animation 

1Genre_ Children's 1Genre Comedy 1Genre Crime 0Genre Documentary OGenre Drama 
OGenre_ Fantasy OGenre_ Film-Noir OGenre_ Horror OGenre Musical OGenre Mystery 
OGenre Romance OGenre Sci-Fi OGenre_ Thriller OGenre War 0Genre Western OName: 0 
注意 : 对 于 很 大 的 数据 ， 用 这 种 方式 构建 多 成 员 指标 变量 就 会 变 得 非常 慢 。 肯 定 需 要 编写 一 
个 能 够 利用 DataFrame 内 部 机 制 的 更 低级 的 函数 才 行 。 


一 个 对 统计 应 用 有 用 的 秘诀 是 : 结合 get dummies 和 诸如 cut 之 类 的 离散 化 函数 。 


In [204]: values = np.random.rand(10)In [205]: valuesOut[205]:array([ 0.9296, 0.3164, 
0.1839, 0.2046, 0.5677, 0.5955, 0.9645, 0.6532, 0.7489, 0.6536])In [206]: bins = [0, 0.2, 0.4, 
0.6, 0.8, 1]In [207]: pd.get dummies(pd.cut(values, bins))Out[207]: (0, 0.2] (0.2, 0.4] (0.4, 
0.6] (0.6, 0.8] (0.8, 110 000011010002100003010004001005001006000 
01700010800010900010 


译注 5 
: 原文 这 里 的 意思 很 有 问题 ， 原 文 说 的 是 “返回 duplicated 为 True 的 DataFrame”， 实 际 上 应 该 


是 删除 了 duplicated 为 True 的 那些 行 ， 因 此 最 终 得 到 的 DataFrame 的 duplicated 不 可 能 再 含有 
True 了 。 


译注 6 
: 也 叫 孤 立 点 或 离 群 值 。 


译注 7 

: 也 就 是 中 学 学 的 那个 排列 ， 只 不 过 不 是 算出 所 有 排列 ， 而 是 其 中 之 一 。 
译注 8 

: 这 个 数据 集 不 在 ch07 中 ， 而 在 ch02 里 面 。 

字符 串 操作 


Python 能 够 成 为 流行 的 数据 义理 语言 ， 部 分 原因 是 其 简单 易 用 的 字符 串 和 文本 处 理 功能 。 大 
部 分 文本 运算 都 直接 做 成 了 字符 串 对 象 的 内 置 方法 。 对 于 更 为 复杂 的 模式 匹配 和 文本 操作 ， 
则 可 能 需要 用 到 正则 表达 式 。pandas 对 此 进行 了 加 强 ， 它 使 你 能 够 对 整 组 数据 应 用 字符 串 表 
达 式 和 正则 表达 式 ， 而 且 能 义理 烦人 的 缺失 数据 。 


字符 串 对 象 方法 


对 于 大 部 分 字符 串 外 理应 用 而 言 ， 内 置 的 字符 串 方 法 已 经 能 够 满足 要 求 了 。 例 如 ， 以 逗号 分 
隔 的 字符 串 可 以 用 split 拆 分 成 数 段 : 


In [208]: val = 'a,b, guido'In [209]: val.split(，)Out[209]: ['a', 'b', ' guido]"] 
split 常 常 结合 strip 《用 于 修剪 空白 符 (包括 换行 符 ) ) 一 起 使 用 : 

In [210]: pieces = [x.strip() for x in val.split(,)]In [211]: piecesOut[211]: ['a', 'b', 'guido!'] 
利用 加 法 ， 可 以 将 这 些 子 字符 串 以 双 冒 号 分 隔 符 的 形式 连接 起 来 : 译注 9 


In [212]: first, second, third = piecesln [213]: first + '::' + second + *::" + thirdOut[213]: 
'a::b::guido' 


但 这 种 方式 并 不 是 很 灾 用 。 一 种 更 快 更 符合 Python 风 格 的 方式 是 ， 向 字符 串 "::" 的 join 方 法 传 入 
一 个 列表 或 元 组 : 


In [214]: "::".join(pieces)Out[214]: 'a::b::guido’ 


另 一 类 方法 关注 的 是 子 串 定 位 。 检 测 子 串 的 最 佳 方式 是 利用 Python 的 in 关键 字 〈 当 然 还 可 以 使 
用 index 和 find) 


In [215]: 'guido' in valOut[215]: Trueln [216]: val.index(',')Out[216]: 1In [217]: 
val.find(":")Out[217]: -1 


注意 find 和 index 的 区 别 : 如 果 找 不 到 字符 串 ，index 将 会 引发 一 个 异常 (而 不 是 返回 一 1) 


In [218]: val.indeX(:)--------------------------------------------- ValueError 
Traceback (most recent call last) in <module>()----> 1 val.index(':')ValueError: substring not 
found 


此 外 还 有 一 个 count 画 数 ， 它 可 以 返回 指定 子 串 的 出 现 次 数 : 


In [219]: val.count(',')Out[219]: 2 

replace 用 于 将 指定 模式 替换 为 另 一 个 模式 。 它 也 常常 用 于 删除 模式 : 传人 空 字符 串 。 

In [220]: val.replace(,， '::')Out[220]: 'a::b:: guido'In [221]: val.replace(',", ")Out[221]: 'ab guido' 
这 些 运 算 大 部 分 都 能 使 用 正则 表达 式 实现 〈 马 上 就 会 看 到 ) 。 

Python 内 置 的 字符 串 方法 如 表 7-3 所 示 。 

表 7-3: Python 内 置 的 字符 串 方法 


方法 说 明 

count 返回 子 串 在 字符 串 中 的 出 现 次 数 ( 非 重 登 ) 

endswith 、startswith ”如 果 字 符 串 以 某 个 后 织 结 尾 (以 某 个 前 级 开头 ) ， 则 返回 True 

join 将 字符 串 用 作 连 接 其 他 字符 串 序列 的 分 隔 符 

index 如 果 在 字符 素 中 找到 子 串 ， 则 返回 子 率 第 一 个 字符 所 在 的 位 
置 。 如 果 没 有 找到 ， 则 引发 ValueError。 

find 如 果 在 字符 串 中 找到 子 串 ， 则 返回 第 一 个 发 现 的 子 串 的 第 一 个 
字符 所 在 的 位 置 。 如 果 没 有 找到 ， 则 返回 一 1 

rfind 如 果 在 字符 素 中 找到 子 素 ， 则 返回 最 后 一 个 发 现 的 子囊 的 第 一 
个 字符 所 在 的 位 置 。 如 果 没 有 找到 ， 则 返回 一 1 

replace 用 另 一 个 字符 串 替 换 指 定子 串 





表 7-3: Python 内 置 的 字符 串 方 法 ( 续 ) 

方法 说 明 

strip、rstrip、lstrip ”去 除 空白 符 (包括 换行 符 ) 。 相 当 于 对 各 个 元 泰 执 行 x.strip() 
【以 及 rstrip、lstrip) 。 于 10 


split 通过 指定 的 分 隔 符 将 字符 素 拆 分 为 一 组 子 串 

lower、upper 分 别 将 字母 字符 转换 为 小 写 或 大 写 

ljust、rjust 用 空格 (或 其 他 字符 ) 填充 字符 串 的 空白 侧 以 返回 符合 最 低 宽 
度 的 字符 串 





译注 10 : 这 里 的 说 法 有 误 。 字 符 串 的 各 个 元 素 不 就 是 字符 吗 ? 这 里 不 是 矢量 化 的 ， 当 涉及 
pandas 中 的 这 几 个 范 数 的 矢量 版 时 才 应 该 加 上 后 面 这 句 。 


正则 表达 式 
正则 表达 式 (通常 称 作 regex) 提供 了 一 种 灵活 的 在 文本 中 搜索 或 匹配 字符 串 模 式 的 方式 。 正 


则 表达 式 是 根据 正则 表达 式 语 言 编写 的 字符 串 。Python 内 置 的 re 模块 负责 对 字符 串 应 用 正则 
表达 式 。 我 将 通过 一 些 例子 说 明 其 使 用 方法 。 


注意 : 正则 表达 式 的 编写 技巧 可 以 自 成 一 章 译 注 11， 因 此 超出 了 本 书 的 范围 。 网 上 可 以 找到 
许多 非常 不 错 的 教程 和 参考 资料 ， 比 如 Zed Shaw 的 《Learn Regex The Hard Way》 
(http://regex.learncodethehardway.org/book/) 。 


re 模块 的 函数 可 以 分 为 三 个 大 类 : 模式 匹配 、 蔡 换 以 及 拆 分 。 当 然 ， 它 们 之 间 是 相辅相成 的 。 
一 个 regex 描 述 了 需要 在 文本 中 定位 的 一 个 模式 ， 它 可 以 用 于 许多 目的 。 我 们 先 来 看 一 个 简单 
的 例子 : 假设 我 想 要 拆 分 一 个 字符 串 ， 分 隔 符 为 数量 不 定 的 一 组 空白 符 ( 制 表 符 、 空 格 、 换 
行 符 等 ) 。 描 述 一 个 或 多 个 空白 符 的 regex 是 \s+ : 


In [222]: import reln [223]: text = "foo bar\t baz \tqux"In [224]: re.split(\s+', text)Out[224]: 
[foo', "bar', "baz', 'qux'] 


调用 re.split(\s+',text) 时 ， 正 则 表达 式 会 先 被 编译 ， 然 后 再 在 text 上 调用 其 split 方 法 。 你 可 以 用 
re.compile 自 己 编译 regex 以 得 到 一 个 可 重用 的 regex 对 象 : 


In [225]: regex = re.compile(\s+')In [226]: regex.split(text)Out[226]: [foo', 'bar', "baz', 'qux'] 
如 果 只 希望 得 到 匹配 regex 的 所 有 模式 ， 则 可 以 使 用 findall 方 法 : 
In [227]: regex.findall(text)Out[227]: [' ", \t"," \t] 


注意 : 如 果 想 避免 正则 表达 式 中 不 需要 的 转 义 (\) ， 则 可 以 使 用 原始 字符 串 字面 量 如 
PrC:X' (也 可 以 编写 其 等 价 式 'C:\x') 。 


如 果 打 算 对 许多 字符 串 应 用 同一 条 正则 表达 式 ， 强 烈 建议 通过 re.compile 创 建 regex 对 象 。 这 
样 将 可 以 节省 大 量 的 CPU 时 间 。 


match 和 search 跟 findall 功 能 类 似 。findall 返 回 的 是 字符 串 中 所 有 的 匹配 项 ， 而 search 则 只 返 
回 第 一 个 匹配 项 。match 更 加 严格 ， 它 只 匹配 字符 串 的 首部 。 来 看 一 个 小 例子 ， 假 设 我 们 有 一 
段 文本 以 及 一 条 能 够 识别 大 部 分 电子 邮件 地 址 的 正则 表达 式 : 


text = "Dave dave@google.comSteve steve@gmail.comRob rob@gmail.comRyan 
ryan@yahoo.com"""pattern = r[A-20-9. %+-]+@[A-Z0-9.-]+.[A-2Z]{2,4}# re.IGNORECASE 的 
作用 是 使 正则 表达 式 对 大 小 宇 不 敏感 regex = re.compile(pattern, flags=re.IGNORECASE) 


对 text 使 用 findall 将 得 到 一 组 电子 邮件 地 址 : 


In [229]: regex.findallltext)Out[229]: [dave@google.com',， steve@gmail.com，， 
'rob@gmail.com', 'ryan@yahoo.com!] 


search 返 回 的 是 文本 中 第 一 个 电子 邮件 地 址 (以 特殊 的 匹配 项 对 象形 式 返 回 ) 。 对 于 上 面 那 
个 regex， 匹 配 项 对 象 只 能 告诉 我 们 模式 在 原 字符 串 中 的 起 始 和 结束 位 置 : 


In [230]: m = regex.search(text)In [231]: mOut[231]: <_sre.SRE_Match at=” 
Ox10a05de00="™">|n [232]: text[m.start():m.end()]Out[232]: 'dave@google.com' 


regex.match 则 将 返回 None， 因 为 它 只 匹配 出 现在 字符 串 开头 的 模式 : 
In [233]: print regex.match(text)None 


另外 还 有 一 个 sub 方 法 ， 它 会 将 匹配 到 的 模式 蔡 换 为 指定 字符 串 ， 并 返回 所 得 到 的 新 字符 串 : 


In [234]: print regex.sub(REDACTED,', text)Dave REDACTEDSteve REDACTEDRob 
REDACTEDRyan REDACTED 


假 投 你 不 仅 想 要 找 出 电子 邮件 地 址 ， 还 想 将 各 个 地 址 分 成 3 个 部 分 : 用 户 名 、 域 名 以 及 域 后 
级 。 要 实现 此 功能 ， 只 需 将 待 分 段 的 模式 的 各 部 分 用 圆 括 号 包 起 来 即 可 : 


In [235]: pattern = r'([A-20-9._%+-]+)@([A-20-9.-]+).([A-Z1]{2,4})'In [236]: regex = 
re.compile(pattern, flags=re.IGNORECASE) 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 ， 可 以 通过 其 groups 方 法 返回 一 个 由 模式 各 段 组 成 的 
元 组 : 

In [237]: m = regex.match(wesm@bright.net')In [238]: m.groups()Out[238]: (wesm,', 'bright, 
'net'") 

对 于 带 有 分 组 功能 的 模式 ，findall 会 返回 一 个 元 组 列表 : 

In [239]: regex.findall(text)Out[239]:[('dave', 'google', 'com'), (‘steve', 'gmail', 'com'), (rob，， 
"gmail， 'com'), (ryan', 'yahoo'", 'com')] 

sub 还 能 通过 诸如 \1、\2 之 类 的 特殊 符号 访问 各 匹配 项 中 的 分 组 : 


In [240]: print regex.sub(r'Username: \1, Domain: \2, Suffix: \3', text)Dave Username: dave, 
Domain: google, Suffix: comSteve Username: steve, Domain: gmail, Suffix: comRob 
Username: rob, Domain: gmail, Suffix: comRyan Username: ryan, Domain: yahoo, Suffix: 
com 


Python 中 还 有 许多 的 正则 表达 式 ， 但 大 部 分 都 超出 了 本 书 的 范围 。 为 了 给 你 一 点 感觉 ， 我 对 
上 面 那个 电子 邮件 正则 表达 式 做 一 点 小 变动 ee 


regex = re.compile(r™™" (?P<username>[A-20-9. %+-]+) @ (?P<domain>[A-Z0-9.-]+) . (? 
P<suffix>[A-2]{2,4})""", flags=re.IGNORECASE|re.VERBOSE) 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 可 以 得 到 一 个 简单 易 用 的 带 有 分 组 名 称 的 字典 : 


In [242]: m = regex.match('wesm@bright.net')In [243]: m.groupdict()Out[243]: {domain': 
'bright', 'suffix': 'net', '"Username': Wesm'} 


前 面 提 及 的 正则 表达 式 的 方法 与 说 明 如 表 7-4 所 示 。 


表 7-4: 正则 表达 式 方法 

方法 说 明 

findall、finditer ”返回 字符 串 中 所 有 的 非 重 壳 匹 配 模式 。findall 返 回 的 是 由 所 有 模式 
组 成 的 列表 ， 而 finditer 则 通过 一 个 迭代 器 逐个 返回 


match 从 字符 串 起 始 位 置 匹 配 模式 ， 还 可 以 对 模式 各 部 分 进行 分 组 。 如 果 
匹配 到 模式 ， 则 返回 一 个 匹配 项 对 象 ， 否 则 返回 None 

search 扫描 整个 字符 囊 以 匹配 模式 。 如 果 找 到 则 返回 一 个 匹配 项 对 象 。 跟 
match 不 同 ， 其 匹配 项 可 以 位 的 全 意 位 置 ， 而 不 仅仅 是 起 
始 处 

split 根据 找到 的 模式 将 字符 串 拆 分 为 数 段 

sub、subn 将 字符 串 中 所 有 的 (sub) 或 前 n 个 (subn) 模式 佑 换 为 指定 表达 


式 *。 在 替换 字符 素 中 可 以 通过 \1. 等 符号 表示 各 人 组 项 
译注 12 : 这 个 表达 式 要 么 是 字符 串 要 么 是 画 数 返回 值 。 
pandas 中 矢量 化 的 字符 串 函 数 


清理 待 分 析 的 散乱 数据 时 ， 常 常 需 要 做 一 些 字 符 串 规整 化 工作 。 更 为 复杂 的 情况 是 ， 含 有 字 
符 串 的 列 有 时 还 含有 缺失 数据 : 


In [244]: data = {Dave': ' dave@google.com', 'Steve': 'steve@gmail.com', ...: "Rob : 
'rob@gmail.com', "Wes': np.nanjln [245]: data = Series(data)In [246]: dataOut[246]:Dave 
dave@google.comRob rob@gmail.comSteve steve@gmail.comWes NaNln [247]: 
data.isnull()Out[247]:Dave FalseRob FalseSteve FalseWes True 


通过 data.map， 所 有 字符 串 和 正则 表达 式 方 法 都 能 被 应 用 于 〈 传 入 lambda 表 过 式 或 其 他 画 
数 ) 各 个 值 ， 但 是 如 果 存 在 NA 就 会 报错 。 为 了 解决 这 个 问题 ，Series 有 一 些 外 Eh NA 值 的 
字符 串 操作 方 法 。 通 过 Series 的 str 属 性 即 可 访问 这 些 方法 。 例 如 ， 我 们 可 以 通过 str.contains 
检查 各 个 电子 邮件 地 址 是 否 含有 "gmail" : 


In [248]: data.str.contains(Cgmail)Out[248]:Dave FalseRob TrueSteve TrueWes NaN 
这 里 也 可 以 使 用 正则 表达 式 ， 还 可 以 加 上 任意 re 选项 (如 IGNORECASE) 


In [249]: patternOut[249]: "([A-20-9. %+-]+)@([A-20-9.-]+)\\.([A-2Z]{2,4})'In [250]: 
data.str.findall(pattern, flags=re.IGNORECASE)Out[250]:Dave [('dave', 'google', 'com')|lRob 
[(rob', 'gmail', 'com')|Steve [('steve', 'gmail', 'com')|lWes NaN 


有 两 个 办 法 可 以 实现 矢量 化 的 元 素 获 取 操 作 : 要 么 使 用 str.get， 要 么 在 str 属 性 上 使 用 索引 。 


In [251]: matches = data.str.match(pattern, flags=re.IGNORECASE)In [252]: 
matchesOut[252]:Dave (dave', 'google', 'com')Rob ('rob', 'gmail', 'com')Steve (steve'，gmail， 
'com')Wes NaNln [253]: matches.str.get(1)Out[253]:Dave googleRob gmailSteve gmailWes 
NaNln [254]: matches.str[0]Out[254]:Dave daveRob robSteve steveWes NaN 


你 可 以 利用 下 面 这 种 代码 对 字符 串 进 行 子 串 截取 : 


天 | 田 Pvfhrn 法 行内 握 分 析 
利 用 P y [moPz | J 女 久 扼 分 机 | 


In [255]: data.str[:5]Out[255]:Dave dave@Rob rob@gSteve steveWes NaN 
表 7-5 介 绍 了 矢量 化 的 字符 串 方 法 。 
表 7-5: 矢量 化 的 字符 串 方 法 


方法 说 明 

cat 实现 元 素 级 的 字符 串 连接 操作 ， 可 指定 分 隔 符 

contains 返回 表示 各 字符 串 是 否 含有 指定 模式 的 布尔 型 数组 

count 模式 的 出 现 次 数 

endswith 、startswith ”相当 于 对 各 个 元 素 执行 xendswith(pattern) 或 x.startswith{pattern) 
findall 计算 各 字符 串 的 模式 列表 

get 获取 各 元 素 的 第 i 个 字 务 

join 根据 指定 的 分 隔 符 将 Series 中 各 元 素 的 字符 串 连 接 起 来 

len 计算 各 字符 串 的 长 度 

lower、upper 转换 大 小 写 。 相 当 于 对 各 个 元 素 执 行 x.lower() 或 x.upper) 
match 根据 指定 的 正则 表达 式 对 各 个 元 素 执行 re.match 

pad 在 字符 串 的 左边 、 右 边 或 左右 两 边 添加 空白 符 

center 相当 于 pad(side='both') 

repeat 重复 值 。 例 如 ，s.strrepeat(3) 相 当 于 对 各 个 字符 串 执行 x* 3 
replace 用 指定 字符 串 赫 换 找 到 的 模式 

slice 对 Series 中 的 各 个 字符 串 进 行 子 串 截 取 

split 根据 分 隔 符 或 正则 表达 式 对 字符 串 进 行 拆 分 


strip 、rstrip、lstrip ”去 除 空白 符 ， 包 括 换 行 符 。 相 当 于 对 各 个 元 素 执 行 x.strip()、 
Xx.rstrip()、x.lstrip() 


译注 9 

: 其 实 什 么 分 隔 符 都 行 ， 原 文 有 歧义 。 

译注 11 

: 别 说 一 章 ， 目 前 市 面 上 专门 介绍 正则 表达 式 的 书 非 常 多 。 
示例 : USDA 食 品 数据 库 


美国 农业 部 (USDA) 制作 了 一 份 有 关 食 物 营养 信息 的 数据 库 。Ashley Williams (一 名 来 自 英 
国 的 技术 牛人 ) 制作 了 该 数据 的 JSON 版 (http://ashleyw.co.uk/project/food-nutrient- 
database) 。 其 中 的 记录 如 下 所 示 : 


{"id": 21441, "description": "KENTUCKY FRIED CHICKEN, Fried Chicken, EXTRA CRISPY, 
Wing, meat and skin with breading", "tags": ["KFC"], "manufacturer": "Kentucky Fried 
Chicken", "group": "Fast Foods", "portions": [{ "amount": 1 "unit": "wing, with skin", "grams": 
68.0}, ... ], "nutrients": [ { "value": 20.8, "units": "g", "description": "Protein", "group": 


"Composition" }, ... ]} 
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每 种 食物 都 带 有 若干 标识 性 属性 以 及 两 个 有 关 营 养 成 分 和 分 量 的 列表 。 这 种 形式 的 数据 不 是 
很 适合 分 析 工 作 ， 因 此 我 们 需要 做 一 些 规整 化 以 使 其 具有 更 好 用 的 形式 。 


从 上 面 列举 的 那个 网 址 下 载 并 解压 数据 之 后 ， 你 可 以 用 任何 喜欢 的 JSON 库 将 其 加 载 到 Python 
中 。 我 用 的 是 Python 内 置 的 json 模 块 : 


In [256]: import jsonln [257]: db = json.load(open('ch07/foods-2011-10-03.json'))In [258]: 
len(db)Out[258]: 6636 


db 中 的 每 个 条 目 都 是 一 个 含有 某 种 食物 全 部 数据 的 字典 。nutrients 字 段 是 一 个 字典 列表 ， 其 
中 的 每 个 字典 对 应 一 种 营养 成 分 : 


In [259]: db[0].keys()Out[259]:[u'portions', udescription , u'tags', u'nutrients', u'group', u'id", 
u'manufacturer"]In [260]: db[O]['nutrients'"][0]Out[260]:{u'description': u'Protein', u'group': 
U'Composition', u'units': u'g', u'value': 25.18}In [261]: nutrients = DataFrame(db[0] 
[nutrients])ln [262]: nutrients[:7]Out[262]: description group units value0 Protein 
Composition g 25.181 Total lipid (fat) Composition g 29.202 Carbohydrate, by difference 
Composition g 3.063 Ash Other g 3.284 Energy Energy kcal 376.005 Water Composition g 
39.286 Energy Energy kJ 1573.00 


在 将 字典 列表 转换 为 DataFrame 时 ， 可 以 只 抽取 其 中 的 一 部 分 字段 。 这 里 ， 我 们 将 取出 食物 
的 名 称 、 分 类 、 编 号 以 及 制造 商 等 信息 : 


In [263]: info_keys = [description,， 'group'", 'id', manufacturer]ln [264]: info = DataFrame(db, 
columns=info_keys)In [265]: info[:5]Out[265]: description group id manufacturer0 Cheese， 
caraway Dairy and Egg Products 10081 Cheese, cheddar Dairy and Egg Products 10092 
Cheese, edam Dairy and Egg Products 10183 Cheese, feta Dairy and Egg Products 10194 
Cheese, mozzarella, part skim milk Dairy and Egg Products 1028In [266]: 
infoOut[266]:Int64Index: 6636 entries, 0 to 6635Data columns:description 6636 non-null 
valuesgroup 6636 non-null valuesid 6636 non-null valuesmanufacturer 5195 non-null 
valuesdtypes: int64(1), object(3) 


通过 value_counts， 你 可 以 查看 食物 类 别 的 分 布 情况 : 


In [267]: pd.value_counts(info.group)[:10]Out[267]:Vegetables and Vegetable Products 
812Beef Products 618Baked Products 496Breakfast Cereals 403Legumes and Legume 
Products 365Fast Foods 365Lamb, Veal, and Game Products 345Sweets 341Pork Products 
328Fruits and Fruit Juices 328 


现在 ， 为 了 对 全 部 营养 数据 做 一 些 分 析 ， 最 简单 的 办 法 是 将 所 有 食物 的 营养 成 分 整合 到 一 个 
大 表 中 。 我 们 分 几 个 步骤 来 实现 该 目的 。 首 先 ， 将 各 食物 的 营养 成 分 列表 转换 为 一 个 
DataFrame， 并 添加 一 个 表示 编号 的 列 ， 然 后 将 该 DataFrame 添 加 到 一 个 列表 中 。 最 后 通过 
concat 将 这 些 东 西 连接 起 来 就 可 以 了 : 


nutrients = []for rec in db: fnuts = DataFrame(rec[nutrients]) fnuts["id'] = rec['id"] 
nutrients.append(fnuts)nutrients = pd.concat(nutrients, ignore_index=True) 


如 果 一 切 顺 利 的 话 ，nutrients 应 该 是 下 面 这 样 的 : 


In [269]: nutrientsOut[269]:Int64Index: 389355 entries, 0 to 389354Data columns:description 
389355 non-null valuesgroup 389355 non-null valuesunits 389355 non-null valuesvalue 
389355 non-null valuesid 389355 non-null valuesdtypes: float64(1), int64(1), object(3) 


我 发 现 这 个 DataFrame 中 无 论 如 何 都 会 有 一 些 重复 项 ， 所 以 直接 丢弃 就 可 以 了 : 


In [270]: nutrients.duplicated().sum()Out[270]: 14179In [271]: nutrients = 
nutrients.drop_duplicates() 


由 于 两 个 DataFrame 对 象 中 都 有 "group" 和 "description"， 所 以 为 了 明确 到 底 谁 是 谁 ， 我 们 需要 
对 它们 进行 重 命名 : 


In [272]: col_mapping = {description' : food', ...: 'group' : 'fgroup'}In [273]: info = 
info.rename(columns=col_mapping, copy=False)ln [274]: infoOut[274]:Int64Index: 6636 
entries, 0 to 6635Data columns:food 6636 non-null valuesfgroup 6636 non-null valuesid 
6636 non-null valuesmanufacturer 5195 non-null valuesdtypes: int64(1), object(3)In [275]: 
col_mapping = {description’ : "nutrient, ...: 'group' : 'nutgroup'}In [276]: nutrients = 
nutrients.rename(columns=col_mapping, copy=False)lIn [277]: nutrientsOut[2771:Int64Index: 
375176 entries, 0 to 389354Data columns:nutrient 375176 non-null valuesnutgroup 375176 
non-null valuesunits 375176 non-null valuesvalue 375176 non-null valuesid 375176 non-null 
valuesdtypes: float64(1), int64(1), object(3) 


做 完 这 些 事情 之 后 ， 就 可 以 将 info 跟 nutrients 合 并 起 来 : 


In [278]: ndata = pd.merge(nutrients, info, on='id, how='outer)lIn [279]: 
ndataOut[279]:Int64Index: 375176 entries, 0 to 375175Data columns:nutrient 375176 non- 
null valuesnutgroup 375176 non-null valuesunits 375176 non-null valuesvalue 375176 non 


null valuesid 375176 non-null valuesfood 375176 non-null valuesfgroup 375176 non-null 
valuesmanufacturer 293054 non-null valuesdtypes: float64(1), int64(1), object(6)In [280]: 
ndata.ix[30000]Out[280]:nutrient Folic acidnutgroup Vitaminsunits mcgvalue 0id 5658food 
Ostrich, top loin, cookedfgroup Poultry ProductsmanufacturerName: 30000 


接 下 来 的 两 章 中 将 介绍 切片 和 切 块 、 聚 合 、 图 形 化 方面 的 工具 ， 所 以 在 你 掌握 了 那些 方法 之 


后 可 以 再 用 这 个 数据 集 来 练 练 手 。 比 如 说 ， 我 们 可 以 根据 食物 分 类 和 营养 类 型 画 出 一 张 中 位 
值 图 (如 图 7-1 所 示 ) 
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图 7-1 : 根据 营养 分 类 得 出 的 锌 中 位 值 


In [281]: result = ndata.groupby(['nutrient', ’fgroup'])['value'].quantile(0.5)In [282]: result['Zinc, 
Zn'].order().plot(kind='barh') 


只 要 稍微 动 一 动脑 子 ， 就 可 以 发 现 各 营养 成 分 最 为 丰富 的 食物 是 什么 了 : 


by_nutrient = ndata.groupby(['nutgroup", "nutrient])get maximum = lambda x: 
x.xs(x.value.idxmax())get_minimum = lambda x: x.xs(x.value.idxmin())max_foods = 
by_nutrient.apply(get_maximum)[['value', food']]# 让 food 小 一 点 max_foods.food = 
max_foods.food.str[:50] 


由 于 得 到 的 DataFrame 很 大 ， 所 以 不 方便 在 书 里 面 全 部 打印 出 来 。 这 里 只 给 出 "Amino 
Acids" 营 养分 组 : 


In [284]: max_foods.ix[Amino Acids'][food]out[284]:nutrientAlanine Gelatins, dry powder, 
unsweetenedArginine Seeds, sesame flour, low-fatAspartic acid Soy protein isolateCystine 
Seeds, cottonseed flour, low fat (glandless)Glutamic acid Soy protein isolateGlycine 
Gelatins, dry powder, unsweetenedH istidine Whale, beluga, meat, dried (Alaska 
Native)Hydroxyproline KENTUCKY FRIED CHICKEN, Fried Chicken, ORIGINAL 
Rlsoleucine Soy protein isolate, PROTEIN TECHNOLOGIES INTERNALeucine Soy protein 
isolate, PROTEIN TECHNOLOGIES INTERNALysine Seal, bearded (Oogruk), meat, dried 
(Alaska NativMethionine Fish, cod, Atlantic, dried and saltedPhenylalanine Soy protein 
isolate, PROTEIN TECHNOLOGIES INTERNAProline Gelatins, dry powder, 
unsweetenedSerine Soy protein isolate, PROTEIN TECHNOLOGIES INTERNAThreonine 
Soy protein isolate, PROTEIN TECHNOLOGIES INTERNATryptophan Sea lion, Steller, 
meat with fat (Alaska Native)Tyrosine Soy protein isolate, PROTEIN TECHNOLOGIES 
INTERNAValine Soy protein isolate, PROTEIN TECHNOLOGIES INTERNAName: food 


第 8 章 ”绘图 和 可 视 化 


绘图 是 数据 分 析 工 作 中 最 重要 的 任务 之 一 ， 是 探索 过 程 的 一 部 分 ， 例 如 ， 帮 助 我 们 找 出 异常 
值 、 必 要 的 数据 转换 、 得 出 有 关 模 型 的 idea 等 。 此 外 ， 还 可 以 利用 诸如 

d3.js (http://d3js.org/) 之 类 的 工具 为 Web 应 用 构建 交互 式 图 像 。Python 有 许多 可 视 化 工具 
(参见 本 章 末尾 ) ， 但 是 我 主要 讲解 matplotlib (http://matplotlib.sourceforge.net) 。 


matplotlib 是 一 个 用 于 创建 出 版 质量 图 表 的 桌面 绘图 包 (主要 是 2D 方 面 ) 。 该 项 目 是 由 John 
Hunter 于 2002 年 启动 的 ， 其 目的 是 为 Python 构建 一 个 MATLAB 式 的 绘图 接口 。 从 那 时 起 ， 
John Hunter、Fernando Pérez (IPython 的 创始 人 ) 等 许多 人 就 一 起 合作 ， 共 同 致力 于 将 
IPython 和 matplotlib 结 合 起 来 以 提供 一 种 功能 丰富 且 高 效 的 科学 计算 环境 。 如 果 结 合 使 用 一 种 
GUI 工具 包 《如 IPython) ，matplotlib 还 具有 诸如 缩放 和 平移 等 交互 功能 。 它 不 仅 支持 各 种 操 
作 系 统 上 许多 不 同 的 GUI 后 端 ， 而 且 还 能 将 图 片 导 出 为 各 种 常见 的 矢量 (vector) 和 光栅 
(raster) 图 : PDF、SVG、JPG、PNG、BMP、GIF 等 。 本 书 中 的 大 部 分 图 形 都 是 用 它 生 成 
的 。 


matplotlib 还 有 许多 插件 工具 集 ， 如 用 于 3D 图 形 的 mplot3d 以 及 用 于 地 图 和 投影 的 basemap。 
我 将 在 本 章 末 尾 介绍 一 个 利用 basemap 在 地 图 上 绘制 数据 和 读 取 shapefiles 的 例子 。 


要 使 用 本 章 中 的 代码 示例 ， 请 确保 你 的 IPython 是 以 Pylab 模 式 启 动 的 (ipython --pylab) ， 或 
通过 %gui 魔 术 命令 打开 了 GUl 事 件 循环 集成 。 


matplotlib API 入 门 


使 用 matplotlib 的 办 法 有 很 多 种 ， 最 常用 的 方式 是 Pylab 模 式 的 IPython (ipython --pylab) 。 这 
样 会 将 IPython 配 置 为 使 用 你 所 指定 的 matplotlib GUI 后 端 (Tk、wxPython、PyQt、Mac OS X 
native、GTK) 。 对 大 部 分 用 户 而 言 ， 默 认 的 后 端 就 已 经 够 用 了 。Pylab 模 式 还 会 向 IPython 引 
入 一 大 堆 模 块 和 函数 以 提供 一 种 更 接近 于 MATLAB 的 界面 ( 见 图 8-1) 。 绘 制 一 张 简 单 的 图 表 
即 可 测试 是 否 一 切 准备 就 绪 : 
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8-1 : 一 张 比较 复 灯 的 matplotlib 金 融 曲 线 


如 果 一 切 都 没有 问题 ， 就 会 弹出 一 个 新 窗口 ， 其 中 绘制 的 是 一 条 直线 。 你 可 以 用 鼠标 或 输入 
close() 来 关闭 它 。matplotlib API 函 数 〈 如 plot 和 close) 都 位 于 matplotlib.pyplot 模 块 中 ， 其 通 
常 的 引入 约定 是 : 


import matplotlib.pyplot as plt 


虽然 pandas 的 绘图 函数 ( 稍 后 介绍 ) 能 够 处 理 许多 普通 的 绘图 任务 ， 但 如 果 需 要 自 定义 一 些 
高 级 功能 的 话 就 必须 学 习 matplotlib APl。 


注意 : 虽然 本 书 没有 详细 地 讨论 matplotlib 的 各 种 功能 ， 但 足以 将 你 引入 门 。matplotlib 的 示例 
库 和 文档 是 成 为 绘图 高 手 的 最 佳 学 习 资 源 。 


Figure 和 Subplot 
matplotlib 的 图 像 都 位 于 Figure 对 象 中 。 你 可 以 用 plt.figure 创 建 一 个 新 的 Figure : 
In [13]: fig = plt.figure() 


这 时 会 弹出 一 个 空 窗口 。plt.figure 有 一 些 选 项 ， 特 别 是 figsize， 它 用 于 确保 当 图 片 保存 到 磁盘 
时 具有 一 定 的 大 小 和 纵横 比 。matplotlib 中 的 Figure 还 支持 一 种 MATLAB 式 的 编号 架构 〈 例 如 
plt.figure(2)) 。 通 过 plt.gcf() 即 可 得 到 当前 Figure 的 引用 。 


不 能 通过 空 Figure 绘 图 。 必 须 用 add_subplot 创 建 一 个 或 多 个 subplot 才 行 : 
In [14]: ax1 = fig.add_subplot(2, 2, 1) 


这 条 代码 的 意思 是 : 图 像 应 该 是 2x2 的 ， 且 当前 选中 的 是 4 个 subplot 中 的 第 一 个 (编号 从 1 开 
始 ) 。 如 果 再 把 后 面 两 个 subplot 也 创建 出 来 ， 最 终 得 到 的 图 像 如 图 8-2 所 示 。 


In [15]: ax2 = fig.add_subplot(2, 2, 2)In [16]: ax3 = fig.add_subplot(2, 2, 3) 
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图 8-2 : 带 有 三 个 subplot 的 Figure 


如 果 这 时 发 出 一 条 绘图 命令 〈 如 plt.plot([1.5,3.5,-2,1.6])) ，matplotlib 就 会 在 最 后 一 个 用 过 的 
subplot (如 果 没 有 则 创建 一 个 ) 上 进行 绘制 。 因 此 ， 如 果 我 们 执行 下 列 命 舍 ， 你 就 会 得 到 如 
图 8-3 所 示 的 结 


In [17]: from numpy.random import randnln [18]: plt.plot(randn(50).cumsum!(), 'k--') 
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图 8-3 : 绘制 一 次 之 后 的 图 像 


"k--" 是 一 个 线 型 选项 ， 用 于 告诉 matplotlib 绘 制 黑色 虚线 图 。 上 面 那些 由 fig.add_subplot 所 返回 
的 对 象 是 AxesSubplot 对 象 ， 直 接 调用 它们 的 实例 方法 就 可 以 在 其 他 空 着 的 格子 里 面 画 图 了 ， 
如 图 8-4 所 示 : 


In [19]: _ = ax1.hist(randn(100), bins=20, color='k', alpha=0.3)In [20]: 
ax2.scatter(np.arange(30), np.arange(30) + 3 * randn(30)) 
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图 8-4 : 继续 绘制 两 次 之 后 的 图 像 


你 可 以 在 matplotlib 的 文档 中 找到 各 种 图 表 类 型 。 由 于 根据 特定 布局 创建 Figure 和 subplot 是 一 
件 非常 常见 的 任务 ， 于 是 便 出 现 了 一 个 更 为 方便 的 方法 (plt.subplots) ， 它 可 以 创建 一 个 新 
的 Figure， 并 返回 一 个 含有 已 创建 的 subplot 对 象 的 NumPy 数 组 : 


In [22]: fig, axes = plt.subplots(2, 3)In [23]: 
axesOut[23]:array([[Axes(0.125,0.536364;0.227941x0.363636), Axes 
(0.398529,0.536364;0.227941x0.363636), Axes (0.672059,0.536364;0.227941x0.363636)]， 
[Axes (0.125,0.1;0.227941x0.363636), Axes (0.398529,0.1;0.227941x0.363636), Axes 
(0.672059,0.1;0.227941x0.363636)]], dtype=object) 


这 是 非常 实用 的 ， 因 为 可 以 轻松 地 对 axes 数 组 进行 素 引 ， 就 好 像 是 一 个 二 维 数组 一 样 ， 例 
如 ，axes[0,1]。 你 还 可 以 通过 sharex 和 sharey 指 定 subplot 应 该 具有 相同 的 X 轴 或 Y 轴 。 在 比较 
相同 范围 的 数据 时 ， 这 也 是 非常 实用 的 ， 否 则 ，matplotlib 会 自动 缩放 各 图 表 的 界限 。 有 关 该 
方法 的 更 多 信息 ， 请 参见 表 8-1。 


表 8-1: pyplot.subplots 的 选项 


参数 说 明 

nrows subplot 的 行 数 

ncols subplot 的 列 数 

sharex 所 有 subplot 应 该 使 用 相同 的 X 轴 刻度 (调节 xlim 将 会 影响 所 有 subplot ) 
sharey 所 有 subplot 应 该 使 用 相同 的 Y 轴 刻度 (调节 ylim 将 会 影响 所 有 subplot ) 
subplot_kw 用 于 创建 各 subplot 的 关键 字 字 上 典 

+#fig_kw 创建 figure 时 的 其 他 关键 字 ， 如 plt.subplots(2,2,figsize={8,6)) 


调整 subplot 周 围 的 间距 


默认 情况 下 ，matplotlib 会 在 subplot 外 围 留 下 一 定 的 边 距 ， 并 在 subplot 之 间 留 下 一 定 的 间距 。 
间距 跟 图 像 的 高 度 和 宽度 有 关 ， 因 此 ， 如 果 你 调整 了 图 像 大 小 〈 不 管 是 编程 还 是 手工 ) ， 间 
距 也 会 自动 调整 。 利 用 Figure 的 subplots_adjust 方 法 可 以 轻而易举 地 修改 间距 ， 此 外 ， 它 也 是 
个 顶级 责 数 : 


subplots_adjust(left=None, bottom=None, right=None, top=None, wspace=None， 
hspace=None) 


wspace 和 hspace 用 于 控制 宽度 和 高 度 的 百分比 ， 可 以 用 作 subplot 之 间 的 间距 。 下 面 是 一 个 简 
单 的 例子 ， 其 中 我 将 间距 收缩 到 了 0 (如 图 8-5 所 示 ) 


fig, axes = plt.subplots(2, 2, sharex=True, sharey=True)for i in range(2): for j in range(2): 
axesli, j].hist(randn(500), bins=50, color='k', alpha=0.5)plt.subplots_adjust(wspace=0, 
hspace=0) 
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图 8-5 : 各 subplot 之 间 没 有 间距 


不 难看 出 ， 其 中 的 轴 标 签 重合 了 。matplotlib 不 会 检查 标签 是 否 重 有 登 ， 所 以 对 于 这 种 情况 ， 你 
只 能 自己 设 定 刻度 位 置 和 刻度 标签 。 后 面 几 节 将 会 详细 介绍 该 内 容 


颜色 、 标 记 和 线 型 


matplotlib 的 plot 函 数 接受 一 组 X 和 YY 坐标， 还 可 以 接受 一 个 表示 颜色 和 线 型 的 字符 串 缩写 。 例 
如 ， 要 根据 x 和 y 绘 制 绿 色 虚 线 ， 你 可 以 执行 如 下 代码 : 


ax.plot(x, y, 'g--') 


这 种 在 一 个 字符 串 中 指定 颜色 和 线 型 的 方式 非常 方便 。 通 过 下 面 这 种 更 为 明确 的 方式 也 能 得 
到 同样 的 效果 : 


ax.plot(x, y, linestyle="-", color='g) 


常用 的 颜色 都 有 一 个 缩写 词 ， 要 使 用 其 他 任意 颜色 则 可 以 通过 指定 其 RGB 值 的 形式 使 用 ( 例 
如 ，'#CECECE') 。 完 整 的 linestyle 列 表 请 参见 plot 的 文档 。 


线 型 图 还 可 以 加 上 一 些 标记 (marker) ， 以 强调 实际 的 数据 点 。 由 于 matplotlib 创 建 的 是 连续 
的 线 型 图 〈 点 与 点 之 间 插 值 ) ， 因 此 有 时 可 能 不 太 容易 看 出 真实 数据 点 的 位 置 。 标 记 也 可 以 
放 到 格式 字符 串 中 ， 但 标记 类 型 和 线 型 必须 放 在 颜色 后 面 (如 图 8-6 所 示 ) 


In [28]: plt.plot(randn(30).cumsum!(), 'ko--'") 








图 8-6 : 带 有 标记 的 线 型 图 示例 

还 可 以 将 其 写成 更 为 明确 的 形式 : 

plot(randn(30).cumsum(), color='k', linestyle='dashed', marker='0') 

在 线 型 图 中 ， 非 实际 数据 点 默认 是 按 线性 方式 插值 的 。 可 以 通过 drawstyle 选 项 修改 : 


In [30]: data = randn(30).cumsum()In [31]: plt.plot(data, 'k--", label='Default)Out[31]: [In [32]: 
plt.plot(data, 'k-'", drawstyle='steps-post', label='steps-post')Out[32]: []In [33]: 
plt.legend(loc='best') 


刻度 、 标 签 和 图 例 


对 于 大 多 数 的 图 表 装 饰 项 ， 其 主要 实现 方式 有 二 : 使 用 过 程 型 的 pyplot 接 口 (MATLAB 用 户 非 
常熟 悉 ) 以 及 更 为 面向 对 象 的 原生 matplotlib APl。 


pyplot 接 口 的 设计 目的 就 是 交互 式 使 用 ， 含 有 诸如 xlim、xticks 和 xticklabels 之 类 的 方法 。 它 们 
分 别 控 制图 表 的 范围 、 刻 度 位 置 、 刻 度 标签 等 。 其 使 用 方式 有 以 下 两 种 : 
:调用 时 不 带 参数 ， 则 返回 当前 的 参数 值 译注 1。 例 如 ，plt.xlim() 返 回 当 前 的 X 轴 绘图 范围 。 


返 
.调用 时 带 参 数 ， 则 设置 参数 值 。 因 此 ，plt.xlim([0,10]) 会 将 X 轴 的 范围 设置 为 0 到 10。 
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图 8-7 : 不 同 drawstyle 选 项 的 线 型 图 

所 有 这 些 方法 都 是 对 当前 或 最 近 创 建 的 AxesSubplot 起 作用 的 。 它 们 各 自 对 应 subplot 对 象 上 的 
两 个 方法 ， 以 xlim 为 例 ， 就 是 ax.get_xlim 和 ax.set_xlim。 我 更 喜欢 使 用 subplot 的 实例 方法 
(因为 我 喜欢 明确 的 事情 ， 而 且 在 处 理 多 个 subplot 时 这 样 也 更 清楚 一 些 ) 。 当 然 你 完全 可 以 
选择 自己 觉得 方便 的 那个 。 

设置 标题 、 轴 标签 、 刻 度 以 及 刻度 标签 

为 了 说 明 轴 的 自 定义 ， 我 将 创建 一 个 简单 的 图 像 并 绘制 一 段 随机 漫步 (如 图 8-8 所 示 ) 


In [34]: fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)In [35]: ax.plot(randn(1000).cumsum()) 
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图 8-8 : 用 于 演示 xticks 的 简单 线 型 图 

要 修改 X 轴 的 刻度 ， 最 简单 的 办 法 是 使 用 set_xticks 和 set_xticklabels。 前 者 告诉 matplotlib 要 将 
刻度 放 在 数据 范围 中 的 哪些 位 置 ， 默 认 情 况 下 ， 这 些 位 置 也 就 是 刻度 标签 。 但 我 们 可 以 通过 
set_xticklabels 将 任何 其 他 的 值 用 作 标 签 : 


In [36]: ticks = ax.set_xticks([0, 250, 500, 750, 1000])In [37]: labels = 
ax.set_ xticklabels(['one', 'two', three', four, five], ...: rotation=30, fontsize='small) 


最 后 ， 再 用 set_xlabel 为 X 轴 设置 一 个 名 称 ， 并 用 set_ title 设置 一 个 标题 : 

In [38]: ax.set title(My first matplotlib plot)Out[38]: In [39]: ax.set_xlabel(Stages ') 
最 终结 果 如 图 8-9 所 示 。Y 轴 的 修改 方式 与 此 类 似 ， 只 需 将 上 述 代 码 中 的 x 替换 为 y 即 可 。 
添加 图 例 


图 例 (legend) 是 另 一 种 用 于 标识 图 表 元 素 的 重要 工具 。 添 加 图 例 的 方式 有 二 。 最 简单 的 是 
在 添加 subplot 的 时 候 传 入 label 参 数 : 


In [40]: fig = plt.figure(); ax = fig.add_subplot(1, 1, 1)In [41]: ax.plot(randn(1000).cumsum()， 
'k', label='one')Out[41]: [] 
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图 8-9 : 用 于 演示 xticks 的 简单 线 型 图 


In [42]: ax.plot(randn(1000).cumsum(), 'k--", label="two')Out[42]: [In [43]: 
ax.plot(randn(1000).cumsum(), 'k.", label='three')Out[43]: [|] 


在 此 之 后 ， 你 可 以 调用 ax.legend() 或 pltlegend() 来 自动 创建 图 例 : 
In [44]: ax.legend(loc='best ) 


如 图 8-10 所 示 。loc 告 诉 matplotlib 要 将 图 例 放 在 哪 。 如 果 你 不 是 吹 毛 求 疲 的 话 ，"beat" 是 不 错 
的 选择 ， 因 为 它 会 选择 最 不 碍 事 的 位 置 。 要 从 图 例 中 去 除 一 个 或 多 个 元 素 ， 不 传 和 label 或 传 
和 信 label='nolegend 即 可 。 


注解 以 及 在 Subplot 上 绘图 


除 标 准 的 图 表 对 象 之 外 ， 你 可 能 还 希望 绘制 一 些 自 定义 的 注解 〈 比 如 文本 、 箭 头 或 其 他 图 形 
等 ) 。 


注解 可 以 通过 text、arrow 和 annotate 等 画 数 进行 添加 。text 可 以 将 文本 绘制 在 图 表 的 指定 坐标 
(X,y)， 还 可 以 加 上 一 些 自 定 义 格式 : 


ax.text(x, y, 'Hello world!", family='monospace', fontsize=10) 
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图 8-10 : 带 有 三 条 线 以 及 图 例 的 简单 线 型 图 


注解 中 可 以 既 含 有 文本 也 含有 箭头 。 例 如 ， 我 们 根据 2007 年 以 来 的 标准 普尔 500 指 数 收 高 价格 
(来 自 YahoolFinance) 绘制 一 张 曲线 图 ， 并 标 出 2008 年 到 2009 年 金融 危机 期 间 的 一 些 重 要 
日 期 。 结 果 如 图 8-11 所 示 : 
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图 8-11 : 2008-2009 年 金融 危机 期 间 的 重要 日 期 


from datetime import datetimefig = plt.figure()ax = fig.add_subplot(1, 1, 1)data = 
pd.read_csv(ch08/spx.csv, index_col=0, parse dates=True)spx = 
data['SPX']spx.plot(ax=ax, style='k-')crisis_data = [ (datetime(2007, 10, 11), Peak of bull 
market'), (datetime(2008, 3, 12), 'Bear Stearns Fails'), (datetime(2008, 9, 15), Lehman 


Bankruptcy')lfor date, label in crisis_data: ax.annotate(label, xy=(date, spx.asof(date) + 50), 
xytext=(date, spx.asof(date) + 200), arrowprops=dict(facecolor='black )， 
horizontalalignment='left, verticalalignment='top'")# 放大 到 2007-2010ax.set_xlim(['1/1/2007", 
'1/1/2011"])ax.set_ylim([600, 1800])ax.set title(Important dates in 2008-2009 financial crisis') 


更 多 有 关注 解 的 示例 ， 请 访问 matplotlib 的 在 线 示例 库 。 


图 形 的 绘制 要 麻烦 一 些 。matplotlib 有 一 些 表示 常见 图 形 的 对 象 。 这 些 对 象 被 称 为 块 
(patch) 。 其 中 有 些 可 以 在 matplotlib.pyplot 中 找到 (如 Rectangle 和 Circle) ， 但 完整 集合 位 
于 matplotlib.patches。 


要 在 图 表 中 添加 一 个 图 形 ， 你 需要 创建 一 个 块 对 象 shp， 然 后 通过 ax.add_patch(shp) 将 其 添加 
到 subplot 中 (如 图 8-12 所 示 ) 


fig = plt.figure()ax = fig.add_subplot(1, 1, 1)rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, 
color='k', alpha=0.3)circ = plt.Circle((0.7, 0.2), 0.15, color='"b'", alpha=0.3)pgon = 
plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]], color='g,, 
alpha=0.5)ax.add_patch(rect)ax.add_patch(circ)ax.add_patch(pgon) 


如 果 查 看 许多 常见 图 表 对 象 的 具体 实现 代码 ， 你 就 会 发 现 它们 其 实 就 是 由 块 组 装 而 成 的 。 
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图 8-12 : 由 三 个 块 图 形 组 成 的 图 
将 图 表 保 存 到 文件 


利用 plt. Bd old lb sn ss 例 
如 ， 要 将 图 表 保 存 为 SVG 文 件 ， 你 只 需 输 


plt.savefig('figpath.svg') 


文件 类 型 是 通过 文件 扩展 名 推断 出 来 的 。 因 此 ， 如 果 你 使 用 的 是 .pdf， 就 会 得 到 一 个 PDF 文 
件 。 我 在 发 布 图 片 时 最 常用 到 两 个 重要 的 选项 是 dpi (控制 “每 英 十 点数” 分辩 率 ) 和 
bbox_inches (可 以 剪除 当前 图 表 周 围 的 空白 部 分 ) 。 要 得 到 一 张 带 有 最 小 白 边 且 分 辩 率 为 
400DPI 的 PNG 图 片 ， 你 可 以 : 


plt.savefig(figpath.png', dpi=400, bbox_ inches='tight ) 

savefig 并 非 一 定 要 写 入 磁盘 ， 也 可 以 写 入 任何 文件 型 的 对 象 ， 比 如 StringlO : 

from io import StringlObuffer = StringlO()plt.savefig(buffer)plot_data = buffergetvalue() 
这 对 在 Web 上 提供 动态 生成 的 图 片 是 很 实用 的 。 
Figure.savefig 方 法 的 参数 及 说 明 如 表 8-2 所 示 。 


表 8-2: Figure.savefig 的 选项 


参数 说 明 

fname 含有 文件 路 径 的 字符 囊 或 Python 的 文件 型 对 象 。 图 像 格 式 由 文 
件 扩展 名 推断 得 出 ， 例 如 ，.pdf 推 断 出 PDF，.png 推 断 出 PNG 

dpi 图 像 分 辩 率 (每 英寸 点 数 ) ， 默 认为 100 

facecolor、edgecolor 图 像 的 背景 色 ， 默 认为 “w” (白色 ) 

format 显 式 设置 文件 格式 (“png” 、 “pdf” 、 “svg” “ps” 
"De vs ) 

bbox_inches 图 表 需 要 保存 的 部 分 。 如 果 设 置 为 “tight”， 则 将 尝试 剪除 图 
表 周 围 的 空白 部 分 


matplotlib 配 置 


matplotlib 自 带 一 些 配 色 方 案 ， 以 及 为 生成 出 版 质量 的 图 片 而 设 定 的 默认 配置 信息 。 幸 运 的 
是 ， 几 乎 所 有 默认 行为 都 能 通过 一 组 全 局 参数 进行 自 定 义 ， 它 们 可 以 管理 图 像 大 小 、subplot 
边 距 、 配 色 方 案 、 字 体 大 小 、 网 格 类 型 等 。 操 作 matplotlib 配 置 系 统 的 方式 主要 有 两 种 。 第 一 
种 是 Python 编 程 方式 ， 即 利用 rc 方法 。 上 比如 说 ， 要 将 全 局 的 图 像 默 认 大 小 设置 为 10x10， 你 可 
以 执行 : 


plt.rc(figure , figsize=(10, 10)) 


rc 的 第 一 个 参数 是 希望 自 定义 的 对 象 ， 如 'figure'、'axes'、'xtick'"、'ytick'"、'grid'、'legend' 等 。 
其 后 可 以 跟 上 一 系列 的 关键 字 参 数 。 最 简单 的 办 法 是 将 这 些 选项 写成 一 个 字典 : 

font_options = {family' : 'monospace', 'weight' : 'bold', 'size' : 'small}plt.rec('font', 
**font_options) 

要 了 解 全 部 的 自 定义 选项 ， 请 查阅 matplotlib 的 配置 文件 matplotlibrc (位 于 matplotlib/mpl-data 


目录 中 ) 。 如 果 对 该 文件 进行 了 自 定义 ， 并 将 其 放 在 你 自己 的 .matplotlibrc 目 录 译 注 2 中 ， 则 
每 次 使 用 matplotlib 时 就 会 加 载 该 文件 。 


译注 1 


: 前 面 的 参数 是 argument， 后 面 的 参数 是 parameter。 我 觉得 后 面 那 个 parameter 不 太 合适 ， 
但 又 实在 想 不 出 更 好 的 表达 方式 。 各 位 读者 可 以 把 后 面 那个 parameter 理 解 为 “当前 配置 值 ”。 
下 面 那 条 也 是 如 此 。 


译注 2 
: 正确 的 目录 名 是 .matplotlib。 
pandas 中 的 绘图 函数 


不 难看 出 ，matplotlib 实 际 上 是 一 种 比较 低级 的 工具 。 要 组 装 一 张 图 表 ， 你 得 用 它 的 各 种 基础 
组 件 才 行 : 数据 展示 〈 即 图 表 类 型 : 线 型 图 、 柱 状 图 、 盒 形 图 、 散 布 图 、 等 值 线 图 等 ) 、 
例 、 标 题 、 刻 度 标签 以 及 其 他 注解 型 信息 。 这 是 因为 要 根据 数据 制作 一 张 完整 图 表 通 常 都 需 
要 用 到 多 个 对 象 。 在 pandas 中 ， 我 们 有 行 标 签 、 列 标签 以 及 分 组 信息 (可 能 有 ) 。 这 也 就 是 
说 ， 要 制作 一 张 完 整 的 图 表 ， 原 本 需要 一 大 堆 的 matplotlib 代 码 ， 现 在 只 需 一 两 条 简洁 的 语句 
就 可 以 了 。pandas 有 许多 能 够 利用 DataFrame 对 象 数 据 组 织 特 点 来 创建 标准 图 表 的 高 级 绘图 
方法 (这 些 函 数 的 数量 还 在 不 断 增 加 ) 。 


警告 : 到 目前 为 止 ，pandas 团 队 已 经 在 绘图 功能 上 下 了 很 大 工夫 。 一 个 参加 了 “2012Google 
Summer of Code 计 划 ” 的 学 生 正 在 夜以继日 地 添加 新 功能 ， 并 使 该 接口 具有 更 好 的 一 致 性 和 可 
用 性 。 因 此 ， 本 书 中 的 这 部 分 代码 可 能 很 快 就 要 过 时 了 。 如 果 那 样 的 话 ，pandas 在 线 文档 将 


会 是 最 好 的 学 习 资源 。 
线 型 图 


Series 和 DataFrame 都 有 一 个 用 于 生成 各 类 图 表 的 plot 方 法 。 黑 认 情 况 下 ， 它 们 所 生成 的 是 线 
型 图 (如 图 8-13 所 示 ) 


In [55]: s = Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))In [56]: 
s.plot() 
该 Series 对 象 的 索引 会 被 传 给 matplotlib， 并 用 以 绘制 X 轴 。 可 以 通过 use_index=False 禁 用 该 


功能 。X 轴 的 刻度 和 界限 可 以 通过 xticks 和 xlim 选 项 进行 调节 ，Y 轴 就 用 yticks 和 ylim。 plot 参 数 
的 完整 列表 请 参见 表 8-3。 我 只 会 讲解 其 中 几 个 ， 剩 下 的 就 留 给 读者 自己 去 研究 了 。 
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OVdata.ix[30-? J^ n& E 1 H Hzz manufqlln Z 0Q@ ^ x:br> b UJ' kQ K [280] y C^ 注 意 : 
[280][280]on-null n yl > 柱状 图 [280][280] y ="2 E B K h2 ~,}N\on-nulls> >< 生 成 线 型 图 的 代码 
中 加 上 kk i='bar (垂直 柱状 图 ) 或 kk i='barh' (水 平 柱状 图 ) 即 可 生成 柱状 图 k 时 ，Series 和 U 
的 索引 将 会 被 用 作 X (bar) 或 Y (barh) 刻度 (t>< b5<) : [280]blockquotey Cblockquotey 
E In [59]: fig, axes = plt.b U] s(2, 1)In [60]: d = Series(np.random.rand(16), ki 
Nhlist(‘abcdefghijklImnop'))In [61]: d.U] (kk i='bar, ax=axes[0], color='k', alpha=0.7)Out[61]: 
In [62]: d.UJ (kk i='barh', ax=axes[1], color='k', alpha=0.7) 注 意 : [280][280]on-null n yl > 多 有 
Uplt.b UJ'ts 画 数 以 及 matU] lib 轴 和 图 像 的 ， 本 章 后 续 的 内 容 。 [280] y ="C E BK h2 ~,}l\on- 
null n >< 于 U/p R 状 图 会 tt>< 一 行 的 值 分 为 一 组 ，< b6< : [280]blockquotey Cblockquotey E In 
[63]: df = U(np.random.rand(6, 4), ...: k i Nh['one', 'two', 'three', ’four', five', 'six"], ...: 
columns=pd.| i N(['A', 'B', 'C', 'D'], n='Genus'))In [64]: dfOut[64]:Genus A B C Done 0.301686 
0.156333 0.371943 0.270731two 0.750589 0.525587 0.689429 0.358974three 0.381504 
0.667707 0.473772 0.632528four 0.942408 0.180186 0.708284 0.641783five 0.840278 
0.909589 0.010041 0.653207six 0.062854 0.589813 0.811318 0.060217In [65]: df.U] (kk 
i='bar) b5 : 水 平和 垂直 柱状 图 < 例 [280] y ="C E BK h2 ~,}hon-null n > 注意 ，U 各 列 的 名 


称 "Genus" 被 用 作 了 图 例 的 标题 。 设 置 stacked=True 即 可 为 U 生 成 堆积 柱状 图 ， 样 每 行 的 值 就 
会 被 堆积 在 一 起 (如 br> b7<) : [280]blockquotey Cblockquotey E In [67]: df.U] (kk i='barh,, 
stacked=True, alpha=0.5) 


注意 : 柱状 图 有 一 个 非常 不 错 的 用 法 : 利用 value_counts 图 形 化 显示 Series 中 各 值 的 出 现 频 
率 ， 上 比如 s.value_counts ().plot(kind='bar')。 

再 以 本 书 前 面 用 过 的 那个 有 关 小 费 的 数据 集 为 例 

译注 3 

， 假 设 我 们 想 要 做 一 张 堆 积 柱状 图 以 展示 每 天 各 种 聚会 规模 的 数据 点 的 百分比 。 我 用 
read_csv 将 数据 加 载 进 来 ， 然 后 根据 日 期 和 聚会 规模 创建 一 张 交 叉 表 : 


In [68]: tips = pd.read csv('chO8/tips.csv')In [69]: party_counts = pd.crosstab(tips.day， 
tips.size)In [70]: party_countsOut[70]:size 12 3 45 6dayFri1 16 110 0Sat2 53 18 131 
0Sun039151831Thur1484513#1 个 人 和 6 个 人 的 聚会 都 比较 少 In [71]: party_counts = 
party_counts.ix[:, 2:5] 











8-16 : DataFrame 柱 状 图 示例 


five 








8-17 : DataFrame 堆 积 柱状 图 示例 


然后 进行 规格 化 ， 使 得 各 行 的 和 为 1 (必须 转换 成 浮 点 数 ， 以 避免 Python 2.7 中 的 整数 除法 问 
题 ) ， 并 生成 图 表 (如 图 8-18 所 示 ) : 


规格 化 成 “和 为 1”In [72]: party_pcts = 
party_counts.div(party_counts.sum(1).asty 
pel(float), axis=0)In [73]: 
party_pctsOut[73]:size 2 3 4 5dayFri 
0.888889 0.055556 0.055556 0.000000Sat 
0.623529 0.211765 0.152941 0.011765Sun 
0.520000 0.200000 0.240000 0.040000Thur 
0.827586 0.068966 0.086207 0.017241iIn 
[74]: party pcts.plot(kind= bar， 
stacked=True) 


于 是 ， 通 过 该 数据 集 就 可 以 看 出 ， 聚 会 规模 在 周末 会 变 大 。 
直方 图 和 密度 图 


直方 图 (histogram) 是 一 种 可 以 对 值 频 率 进行 离散 化 显示 的 柱状 图 。 数 据点 被 拆 分 到 离散 
的 、 间 隔 均匀 的 面 元 中 ， 绘 制 的 是 各 面 元 中 数据 点 的 数量 。 再 以 前 面 那 个 小 费 数 据 为 例 ， 通 
过 Series 的 hist 方 法 ， 我 们 可 以 生成 一 张 “小 费 占 消费 总 额 百 分 比 ” 


译注 4 


的 直方 图 (如 图 8-19 所 示 ) 











图 8-18 : 每 天 各 种 聚会 规模 的 比例 


In [76]: tips['tip_pct'] = tips[tip] / tips['total_bill"]in [77]:tips[tip_pct].hist(bins=50) 








图 8-19 : 小 费 百 分 比 的 直方 图 

与 此 相关 的 一 种 图 表 类 型 是 密度 图 ， 它 是 通过 计算 “可 能 会 产生 观测 数据 的 连续 概率 分 布 的 估 
计 ” 而 产生 的 。 一 般 的 过 程 是 将 该 分 布 近 似 为 一 组 核 ( 即 诸如 正 态 ( 高 斯 ) 分 布 之 类 的 较为 简 
单 的 分 布 ) 。 因 此 ， 密 度 图 也 被 称 作 KDE (Kernel Density Estimate， 核 密度 估计 ) 图 。 调 用 
plot 时 加 上 kind='kde' 即 可 生成 一 张 密度 图 (标准 混合 正 态 分 布 KDE) ， 如 图 8-20 所 示 : 


In [79]: tips['tip_pct'].plot(kind='kde') 





图 8-20 : 小 费 百 分 比 的 密度 


这 两 种 图 表 常 常会 被 画 在 一 起 。 直 方 图 以 规格 化 形式 给 出 (以 便 给 出 面 元 化 密度 ) ， 然 后 再 
在 其 上 绘制 核 密度 估计 。 接 下 来 来 看 一 个 由 两 个 不 同 的 标准 正 态 分 布 组 成 的 双 峰 分 布 (如 图 8 
21 所 示 ) 


In [81]: comp1 = np.random.normal(0, 1, size=200) # N(0, 1)In [82]: comp2 = 
np.random.normal(10, 2, size=200)# N(10, 4)In [83]: values = 
Series(np.concatenate([comp1, comp2]))In [84]: values.hist(bins=100, alpha=0.3, color='k， 
normed=True)Out[84]: In [85]: values.plot(kind='kde', style='k--'") 


散布 图 


散布 图 (scatter plot) 是 观察 两 个 一 维 数据 序列 之 间 的 关系 的 有 效 手段 。matplotlib 的 scatter 
方法 是 绘制 散布 图 的 主要 方法 。 在 下 面 这 个 例子 中 ， 我 加 载 了 来 自 statsmodels 项 目的 
macrodata 数 据 集 ， 选 择 其 中 几 列 ， 然 后 计算 对 数 差 : 


In [86]: macro = pd.read_csv(ch08/macrodata.csv')ln [87]: data = macro[['cpi', 'm1'", tbilrate ， 
'unemp'"lin [88]: trans_data = np.log(data).diff().dropnal()In [89]: trans_data[-5:]Out[89]: cpi 
m1 tbilrate unemp198 -0.007904 0.045361 -0.396881 0.105361199 -0.021979 0.066753 
-2.277267 0.139762200 0.002340 0.010286 0.606136 0.160343201 0.008419 0.037461 
-0.200671 0.127339202 0.008894 0.012202 -0.405465 0.042560 
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图 8-21 : 带 有 密度 估计 的 规格 化 直方 图 
利用 plt.scatter 即 可 轻松 绘制 一 张 简单 的 散布 图 〈 如 图 8-22 所 示 ) 


In [91]: plt.scatter(trans_data['m1", trans_data['unemp'])Out[91]: In [92]: plt:title(CChanges in 
log %s vs. log %s' % (m1'", ' unemp')) 


在 探索 式 数 据 分 析 工 作 中 ， 同 时 观察 一 组 变量 的 散布 图 是 很 有 意义 的 ， 这 也 被 称 为 散布 图 矩 
阵 (scatter plot matrix) 。 纯 手工 创建 这 样 的 图 表 很 费 工 夫 ， 所 以 pandas 提 供 了 一 个 能 从 
DataFrame 创 建 散布 图 矩 阵 的 scatter_matrix 函 数 。 它 还 支持 在 对 角 线 上 放置 各 变量 的 直方 
或 密度 图 。 结 果 如 图 8-23 所 示 : 


In [93]: pd.scatter_matrix(trans_data, diagonal='kde', color='k', alpha=0.3) 


Changes in log ml vs. log unemp 





图 8-22 : 一 张 简 单 的 散布 图 


Scatter plot matrix of statsmodels macro data 
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图 8-23 : statsmodels macro data 的 散布 图 矩阵 
译注 3 
: 本 书 前 面 没有 用 过 这 个 数据 集 ， 读 者 不 用 找 了 。 


译注 4 : 仔细 观察 数据 可 以 发 现 ， 实 际 并 不 这 样 的 ， 因 为 这 里 的 小 费 可 能 不 在 消费 总 额 里 面 。 
仅仅 当做 一 个 例子 即 可 ， 不 必 深 究 。 


绘制 地 图 : 图 形 化 显示 海地 地 震 危 机 数据 


Ushahidi 是 一 家 非 营利 软件 公司 ， 人 们 可 以 通过 短信 向 其 提供 有 关 自 然 灾害 和 地 缘 政 治 事件 的 
信息 。 这 些 数据 集会 被 发 布 在 他 们 的 网 站 
(http://community.ushahidi.com/research/datasets/) 上 以 供 分 析 和 图 形 化 。 我 下 载 了 2010 
年 海地 地 震 及 其 余震 期 间 搜集 的 数据 。 在 本 节 中 ， 我 将 告诉 你 如 何 利用 pandas 以 及 其 他 目前 
已 经 学 过 的 工具 处 理 这 些 数 据 ， 以 便 为 分 析 和 图 形 化 工作 做 准 各 。 从 上 面 的 链接 下 载 好 这 个 
CSV 文 件 之 后 ， 就 可 以 用 read_csv 将 其 加 载 到 DataFrame 中 了 : 


In [94]: data = pd.read_csv(ch08/Haiti.csv)In [95]: dataOut[95]:Int64Index: 3593 entries, 0 to 
3592Data columns:Serial 3593 non-null valuesINCIDENT TITLE 3593 non-null 
valuesINCIDENT DATE 3593 non-null valuesLOCATION 3593 non-null 
valuesDESCRIPTION 3593 non-null valuesCATEGORY 3587 non-null valuesLATITUDE 
3593 non-null valuesLONGITUDE 3593 non-null valuesAPPROVED 3593 non-null 
valuesVERIFIED 3593 non-null valuesdtypes: float64(2), int64(1), object(7) 


现在 来 处 理 一 下 这 些 数据 ， 看 看 哪些 是 我 们 想 要 的 。 每 一 行 表 示 一 条 从 某 人 的 手机 上 发 送 的 
紧急 或 其 他 问题 的 报告 。 每 条 报告 都 有 一 个 时 间 惟 和 位 置 (经 度 和 纬度 ) 


In [96]: data[['INCIDENT DATE', 'LATITUDE', 'LONGITUDE'][:10]Out[96]: INCIDENT DATE 
LATITUDE LONGITUDE0 05/07/2010 17:26 18.233333 -72.5333331 28/06/2010 23:06 
50.226029 5.7298862 24/06/2010 16:21 22.278381 114.1742873 20/06/2010 21:59 
44.407062 8.9339894 18/05/2010 16:26 18.571084 -72.3346715 26/04/2010 13:14 
18.593707 -72.3100796 26/04/2010 14:19 18.482800 -73.6388007 26/04/2010 14:27 
18.415000 -73.1950008 15/03/2010 10:58 18.517443 -72.2368419 15/03/2010 11:00 
18.547790 -72.410010 


CATEGORY 字 段 舍 有 一 组 以 逗号 分 隔 的 代码 ， 这 些 代 码 表示 消息 的 类 型 : 


In [97]: data['CATEGORY'][:6]Out[97]:0 1. Urgences | Emergency, 3. Public Health ,1 1. 
Urgences | Emergency, 2. Urgences logistiques2 2. Urgences logistiques | Vital Lines, 8. 
Autre |3 1. Urgences | Emergency,4 1. Urgences | Emergency5 5e. Communication lines 
down,Name: CATEGORY 


只 要 仔细 观察 一 下 上 面 这 个 数据 摘要 ， 就 能 发 现 有 些 分 类 信息 缺失 了 ， 因 此 我 们 需要 丢弃 这 
些 数 据点 。 此 外 ， 调 用 describe 还 能 发 现 数据 中 存在 一 些 异常 的 地 理 位 置 : 

In [98]: data.describe()Out[98]: Serial LATITUDE LONGITUDEcount 3593.000000 
3593.000000 3593.000000mean 2080.277484 18.611495 -72.322680std 1171.100360 
0.738572 3.650776min 4.000000 18.041313 -74.45275725% 1074.000000 18.524070 


-72.41750050% 2163.000000 18.539269 -72.33500075% 3088.000000 18.561820 
-72.293570max 4052.000000 50.226029 114.174287 


清除 错误 位 置信 息 并 移 除 缺失 分 类 信息 是 一 件 很 简单 的 事情 : 


In [99]: data = data[(data.LATITUDE > 18) & (data.LATITUDE < 20) & ...: (data.LONGITUDE 
> -75) & (data.LONGITUDE < -70) ...: & data.CATEGORYnotnull()] 


现在 ， 我 们 想 根据 分 类 对 数据 做 一 些 分 析 或 图 形 化 工作 ， 但 是 各 个 分 类 字段 中 可 能 含有 多 个 
分 类 。 此 外 ， 各 个 分 类 信息 不 仅 有 一 个 编码 ， 还 有 一 个 英文 名 称 (可 能 还 有 一 个 法 语 名 
称 ) 。 因 此 需要 对 数据 做 一 些 规整 化 处 理 。 首 先 ， 我 编写 了 两 个 图 数 


译注 5 
， 一 个 用 于 获取 所 有 分 类 的 列表 ， 另 一 个 用 于 将 各 个 分 类 信息 拆 分 为 编码 和 英语 名 称 : 


def to_cat list(catstr): stripped = (x.strip() for x in catstr.split(",')) return [x for x in stripped if 
xldef get_all_categories(cat series): cat_ sets = (set(to_cat list(x)) for x in cat_series) return 
sorted(set.union(*cat sets))def get_ english(cat): code, names = cat.split(".') if | in names: 
names = names.split(' | )[1] return code, names.strip() 


你 可 以 测试 一 下 get_english 函 数 是 否 工作 正常 : 


In [101]: get_english('2. Urgences logistiques | Vital Lines')Out[101]: (2', 'Vital Lines') 


接 下 来 ， 我 做 了 一 个 将 编码 跟 名 称 映射 起 来 的 字典 ， 这 是 因为 我 们 等 会 儿 要 用 编码 进行 分 
析 。 后 面 我 们 在 修饰 图 表 时 也 会 用 到 这 个 (注意 ， 这 里 用 的 是 生成 器 表达 式 ， 而 不 是 列表 推 
导 式 ) 


In [102]: all_cats = get_all_categories(data.CATEGORY 诗 生成 器 表达 式 In [103]: 
english_mapping = dict(get_english(x) for x in all_cats)In [104]: 
english_mapping['2a']Out[104]: 'Food Shortage'ln [105]: english_mapping['6c]oOut[105]: 
Earthquake and aftershocks' 


根据 分 类 选取 记录 的 方式 有 很 多 ， 其 中 之 一 是 添加 指标 (或 哑 交 量 ) 列 ， 每 个 分 类 一 列 。 为 
此 ， 我 们 首先 抽取 出 唯一 的 分 类 编码 ， 并 构造 一 个 全 需 DataFrame ( 列 为 分 类 编码 ， 索 引 跟 
data 的 索引 一 样 ) 


def get_code(seq): return [x.split(".")[0] for x in seq if xJall_codes = 
get_code(all cats)code index = pd.Index(np.unique(all_codes))dummy frame = 
DataFrame(np.zeros((len(data), len(code_index))), index=data.index, columns=code_index) 


如 果 一 切 顺 利 ，dummy_frame 应 该 是 这 样 的 : 


In [107]: dummy_frame.ix[:, :6]Out[107]:Int64Index: 3569 entries, 0 to 3592Data columns:1 
3569 non-null values1a 3569 non-null values1b 3569 non-null values1c 3569 non-null 
values1d 3569 non-null values2 3569 non-null valuesdtypes: float64(6) 


你 可 能 已 经 想到 了 ， 现 在 应 该 将 各 行 中 适当 的 项 设置 为 1{， 然 后 再 与 data 进 行 连接 : 


for row, cat in zip(data.index, data.CATEGORY): codes = getcode(to_cat list(cat)) 
dummy_frame.ix[row, codes] = 1data = data.join(dummy _frame.add_prefix('category')) 


现在 data 有 了 一 些 新 的 列 : 


In [109]: data.ix[:, 10:15]Out[109]:Int64Index: 3569 entries, 0 to 3592Data 
columns:category_1 3569 non-null valuescategory_1a 3569 non-null valuescategory_1b 
3569 non-null valuescategory_1c 3569 non-null valuescategory_1d 3569 non-null 
valuesdtypes: float64(5) 


接 下 来 开始 画图 吧 ! 由 于 这 是 空间 坐标 数据 ， 因 此 我 们 希望 把 数据 绘制 在 海地 的 地 图 上 。 
basemap 工 具 集 (http://matplotlib.github.com/basemap，matplotlib 的 一 个 插件 ) 使 得 我 们 能 
够 用 Python 在 地 图 上 绘制 2D 数 据 。basemap 提 供 了 许多 不 同 的 地 球 投影 以 及 一 种 将 地 球 上 的 
经 纬度 坐标 投影 转换 为 二 维 matplotlib 图 的 方式 。 经 过 一 通 又 一 表 地 党 试 ， 我 编写 了 下 面 这 个 
本 数 ， 它 可 以 绘制 出 一 张 简单 的 黑白 海地 地 图 : 


from mpl_toolkits.basemap import Basemapimport matplotlib.pyplot as pltdef 
basic_haiti_map(ax=None, lllat=17.25, urlat=20.25, lllon=-75, urlon=-71): # 创建 极 球面 投影 
的 Basemap 实 例 。 m = Basemap(ax=ax, projection='stere', lon_0=(urlon + lllon) / 2, lat_0= 


(urlat + lllat) / 2, llcrnrlat=lllat，urcrnrlat=urlat, llcrnrlon=lllon, urcrnrlon=urlon, resolution=) # 
绘制 海岸 线 、 州 界 、 国 界 以 及 地 图 边界 。 m.drawcoastlines() m.drawstates() 
m.drawcountries() return m 


现在 的 问题 是 ， 如 何 让 返回 的 这 个 Basemap 对 象 知道 该 怎样 将 坐标 转换 到 画布 上 。 我 编写 了 
下 面 的 代码 来 绘制 数据 。 对 于 每 一 个 分 类 ， 我 在 数据 集中 找到 了 对 应 的 坐标 ， 并 在 适当 的 
subplot 中 绘制 一 个 Basemap， 转 换 坐 标 ， 然 后 通过 Basemap 的 plot 方 法 绘制 点 


fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 10))fig.subplotsadjust(hspace=0.05, 
wspace=0.095)to_plot = ['2a' '1", '3c' 7a'llllat=17.295; urlat=20.25; lllon=-75; urlon=-71for 
code, ax in zip(to_plot, axes.flat): m = basic ha 而 mapfax lllat=//lat, urlat=uwrlat, lllon=/l/on, 
urlon=urlon) ”cat da 要 = dataldatal'category%s' % code] == 1] # 计算 地 图 的 投影 坐 

标 。 x,y=m(cat dataLONGITUDE, cat_data.LATITUDE) m.plot(x, y, 'k.', alpha=0.5) 
ax.Set title('%s: %s' % (code, english_mapping[code])) 


最 终结 果 如 图 8-24 所 示 。 











图 8-24 : 海地 地 震 的 4 类 数据 

从 图 中 可 以 看 出 ， 大 部 分 数据 都 集中 在 人 口 最 稠密 的 城市 一 一 太子 港 。basemap 还 可 以 县 加 
来 自 shapefile 的 地 图 数据 。 我 先 下 载 了 一 个 带 有 太子 港 道路 的 shapefile (参见 
http://cegrp.cga.harvard.edu/haiti/?q=resources_data) 。Basemap 对 象 有 一 个 非常 方便 的 
readshapefile 方 法 ， 于 是 在 解压 完 道路 数据 文件 之 后 ， 我 只 在 代码 中 加 以 下 几 行 就 可 以 了 : 


shapefile_path = 
'ch08/PortAuPrince_ Roads/PortAuPrince Roads'm.readshapefile(shapefile_path, 'roads') 


在 对 经 纬度 边界 进行 了 一 番 党 试 之 后 ， 我 做 了 一 张 反 映 食物 短缺 情况 的 图 片 ， 如 图 8-25 所 
示 。 











图 8-25 : 海地 大 地 震 期 间 ， 太 子 港 的 食物 短缺 报告 

译注 5 : 读者 就 当做 两 个 吧 。 

Python 图 形 化 工具 生态 系统 

用 Python 创建 图 形 的 方式 非常 多 〈 根 本 罗列 不 完 ) 。 除 了 开源 库 ， 商 业 库 也 不 少 。 


本 书 主要 涉及 的 是 matplotlib， 因 为 它 是 Python 领域 中 使 用 最 广泛 的 绘图 工具 。 虽 然 matplotlib 
是 Python 科学 计算 生态 系统 的 重要 组 成 部 分 ， 但 它 在 统计 图 表 的 创建 和 展示 方面 仍然 有 许多 
缺点 。MATLAB 用 户 可 能 会 对 matplotlib 感 到 熟悉 ， 而 R 用 户 (尤其 是 使 用 ggplot2 和 trellis 的 那 
些 ) 可 能 就 会 比较 郁闷 了 〈 至 少 目前 是 ) 。 虽 然 matplotlib 可 以 为 Web 应 用 创建 漂亮 的 图 表 ， 

但 这 通常 需要 耗费 大 量 的 精力 ， 因 为 它 原本 是 为 印刷 而 设计 的 。 先 不 管 美 不 美 观 ， 至 少 它 足 
以 应 付 大 部 分 需求 。 在 pandas 中 ， 我 跟 其 他 开发 人 员 一 直 都 在 寻求 使 数据 分 析 中 的 大 部 分 绘 
图 工作 变 得 更 简单 的 办 法 。 


广泛 使 用 的 图 形 化 工具 很 多 。 这 里 我 只 列举 几 个 ， 但 建议 你 研究 一 下 整个 生态 系统 。 
Chaco 


Chaco (http://code.enthought.com/chaco/) 是 由 Enthought 开 发 的 一 个 绘图 工具 包 ， 它 既 可 
以 绘制 静态 图 又 可 以 生成 交互 式 图 形 ， 如 图 8-26 所 示 。 它 非常 适合 用 复杂 的 图 形 化 方式 表达 
数据 的 内 部 关系 。 跟 matplotlib 相 比 ，Chaco 对 交互 的 支持 要 好 得 多 ， 而 且 泻 染 速度 很 快 。 如 
果 要 创建 交互 式 的 GUI 应 用 程序 ， 它 确实 是 个 不 错 的 选择 。 





8-26 : Chaco 图 示例 
mayavi 


mayavi 项 目 (由 Prabhu Ramachandran、Gal Varoquaux 等 人 开发 ) 是 一 个 基于 开源 C++ 图 
形 库 VTK 的 3D 图 形 工具 包 。 跟 matplotlib 一 样 ，mayavi 也 能 集成 到 IPython 以 实现 交互 式 使 

用 。 通 过 鼠标 和 键 瘟 操作 ， 图 形 可 以 被 平移 、 旋 转 、 缩 放 。 在 第 12 章 中 ， 我 用 mayavi 制 作 了 
一 张 有 关 广 播 的 插图 。 我 没有 给 出 任何 调用 mayavi 的 代码 ， 但 你 可 以 在 网 上 找到 很 多 文档 和 
示例 。 我 相信 它 能 成 为 WebGL (以 及 相关 产品 ) 的 替代 品 ， 虽 然 其 生成 的 图 形 很 难以 交互 的 


形式 共享 。 
其 他 库 


当然 ，Python 领 域 中 还 有 许多 其 他 的 图 形 化 库 和 应 用 程序 : PyQwt、Veusz、gnuplot-py、 
biggles 等 。 我 就 佛经 见 过 PyQwt 被 用 在 基于 Qt 框架 (PyQt) 的 GUI 应 用 程序 中 。 许 多 库 都 还 
在 不 断 地 发 展 (有 些 已 经 被 用 在 大 型 应 用 程序 当中 了 ) 。 近 几 年 来 ， 我 发 现 了 一 个 总 体 趋 
势 : 大 部 分 库 都 在 向 基于 Web 的 技术 发 展 ， 并 逐渐 远离 桌面 图 形 技 术 。 下 面 我 要 就 这 个 问题 
多 说 几 句 。 


图 形 化 工具 的 未 来 


基于 Web 技 术 (比如 JavaScript) 的 图 形 化 是 必然 的 发 展 趋势 。 究 无 疑问 ， 许 多 基于 Flash 或 
JavaScript 的 静态 或 交互 式 图 形 化 工具 已 经 出 现 了 很 多 年 。 而 且 类 似 的 新 工具 包 (如 d3.js 及 其 
分 支 项 目 ) 一 直 都 在 不 断 涌现 。 相 比 之 下 ， 非 Web 式 的 图 形 化 开发 工作 在 近 几 年 中 减 慢 了 许 
多 。Python 以 及 其 他 数据 分 析 和 统计 计算 环境 (如 R) 都 是 如 此 。 


于 是 ， 开 发 方向 就 变 成 了 实现 数据 分 析 和 准 各 工具 (如 pandas) 与 Web 浏 览 器 之 间 更 为 紧密 
的 集成 。 我 希望 这 个 思路 今后 能 成 为 Python 以 及 非 Python 用 户 之 间 富 有 成 效 的 协作 手段 。 


第 9 章 ”数据 聚合 与 分 组 运算 


对 数据 集 进 行 分 组 并 对 各 组 应 用 一 个 函数 (无 论 是 聚合 还 是 转换 ) ， 这 是 数据 分 析 工 作 中 的 
重要 环节 。 在 将 数据 集 准 各 好 之 后 ， 通 常 的 任务 就 是 计算 分 组 统计 或 生成 视 表 。pandas 提 供 
了 一 个 灵活 高 效 的 gruopby 功 能 ， 它 使 你 能 以 一 种 自然 的 方式 对 数据 集 进 行 切片 、 切 块 、 摘 要 
等 操作 。 


关系 型 数据 库 和 SQL (Structured Query Language， 结 构 化 查询 语言 ) 能 够 如 此 流行 的 原因 
之 一 就 是 其 能 够 方便 地 对 数据 进行 连接 、 过 滤 、 转 换 和 聚合 。 但 是 ， 像 SQL 这 样 的 查询 语言 
所 能 执行 的 分 组 运算 的 种 类 很 有 限 。 在 本 章 中 你 将 会 看 到 ， 由 于 Python 和 pandas 强 大 的 表达 
能 力 ， 我 们 可 以 执行 复杂 得 多 的 分 组 运算 (利用 任何 可 以 接受 pandas 对 象 或 NumPy 数 组 的 画 
数 ) 。 在 本 章 中 ， 你 将 会 学 到 : 


.根据 一 个 或 多 个 键 〈 可 以 是 函数 、 数 组 或 DataFrame 列 名 ) 拆 分 pandas 对 象 。 
计算 分 组 摘要 统计 ， 如 计数 、 平 均值 、 标 准 差 ， 或 用 户 自 定义 函数 。 

:对 DataFrame 的 列 应 用 各 种 各 样 的 函数 。 

:应 用 组 内 转换 或 其 他 运算 ， 如 规格 化 、 线 性 回 为 、 排 名 或 选取 子 集 等 。 
:计算 透视 表 或 交叉 表 。 

.执行 分 位 数 分 析 以 及 其 他 分 组 分 析 。 


注意 : 对 时 间 数 据 的 聚合 (groupby 的 特殊 用 法 之 一 ) 也 称 作 重 采 样 (resampling) ， 本 书 将 
在 第 10 章 中 单独 对 其 进行 讲解 。 


GroupBy 技 术 


Hadley Wickham (许多 热门 RR 语言 包 的 作者 ) 创造 了 一 个 用 于 表示 分 组 运算 的 术语 "split- 
apply-combine"(〈 拆 分 一 应 用 一 合并 ) ， 我 觉得 这 个 词 很 好 地 描述 了 整个 过 程 。 分 组 运算 的 第 
一 个 阶段 ，pandas 象 (无 论 是 Series、DataFrame 还 是 其 他 的 ) 中 的 数据 会 根据 你 所 提供 的 
一 个 或 多 个 键 被 拆 分 (split) 为 多 组 。 拆 分 操作 是 在 对 象 的 特定 轴 上 执行 的 。 例 如 ， 
DataFrame 可 以 在 其 行 (axis=0) 或 列 (axis=1) 上 进行 分 组 。 然 后 ， 将 一 个 函数 应 用 
(apply) 到 各 个 分 组 并 产生 一 个 新 值 。 最 后 ， 所 有 这 些 函 数 的 执行 结果 会 被 合并 

(combine) 到 最 终 的 结果 对 象 中 。 结 果 对 象 的 形式 一 般 取 决 于 数据 上 所 执行 的 操作 。 图 9-1 
大 致 说 明了 一 个 简单 的 分 组 聚合 过 程 。 
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分 组 键 可 以 有 多 种 形式 ， 且 类 型 不 必 相同 : 

"列表 或 数组 ， 其 长 度 和 与 待 分 组 的 轴 一 样 。 

:表示 DataFrame 某 个 列 名 的 值 。 

:字典 或 Series， 给 出 待 分 组 轴 上 的 值 与 分 组 名 之 间 的 对 应 关系 。 
男 数 ， 用 于 处 理 轴 索引 或 索引 中 的 各 个 标签 。 


~ 
~ 


注意 ， 后 三 种 都 只 是 快捷 方式 而 已 ， 其 最 终 目的 仍然 是 产生 一 组 用 于 拆 分 对 象 的 值 。 如 果 觉 
得 这 些 东 西 看 起 来 很 抽象 ， 不 用 担心 ， 我 将 在 本 章 中 给 出 大 量 有 关于 此 的 示例 。 首 先 来 看 看 
下 面 这 个 非常 简单 的 表格 型 数据 集 (以 DataFrame 的 形式 ) 

In [13]: df = DataFrame(fkey1 : [a，a, 'b', 'b', 'a'], ...: key2' : [one',， 'two', 'one', 'two', 'one'], 
.data1 : np.random.randn(5), ...: 'data2' : np.random.randn(5)})In [14]: dfOut[14]: data1 


data2 key1 key20 -0.204708 1.393406 a one1 0.478943 0.092908 a two2 -0.519439 
0.281746 b one3 -0.555730 0.769023 b two4 1.965781 1.246435 a one 


假设 你 想 要 按 key1 进 行 分 组 ， 并 计算 data1 列 的 平均 值 。 实 现 该 功能 的 方式 有 很 多 ， 而 我 们 这 
里 要 用 的 是 : 访问 data1， 并 根据 key1 调 用 groupby : 


In [15]: grouped = dff'data1'].groupby(dff'key1"])In [16]: groupedOut[16]: 


变量 grouped 是 一 个 GroupBy 对 象 。 它 实际 上 还 没有 进行 任何 计算 ， 只 是 含有 一 些 有 关 分 组 键 
df['key 人 的 中 间 数 据 而 已 。 换 句 话 说， 该 对 象 已 经 有 了 接 下 来 对 各 分 组 执行 运算 所 需 的 一 切 信 
息 。 例 如 ， 我 们 可 以 调用 GroupBy 的 mean 方 法 来 计算 分 组 平均 值 : 


In [17]: grouped.mean()Out[17]:key1a 0.746672b -0.537585 


稍 后 我 将 详细 讲解 .mean() 的 调用 过 程 。 这 里 最 重要 的 是 ， 数 据 (Series) 根据 分 组 键 进行 了 
聚合 ， 产 生 了 一 个 新 的 Series， 其 索引 为 key1 列 中 的 唯一 值 。 之 所 以 结果 中 索引 的 名 称 为 
key1， 是 因为 原始 DataFrame 的 列 df['key1"] 就 叫 这 个 名 字 。 

如 果 我 们 一 次 传人 多 个 数组 ， 就 会 得 到 不 同 的 结果 : 

In [18]: means = dff'data1'].groupby([dff'key1"], df['key2'"]]).mean()In [19]: meansOut[19]:key1 
key2a one 0.880536 two 0.478943b one -0.519439 two -0.555730 

这 里 ， 我 通过 两 个 键 对 数据 进行 了 分 组 ， 得 到 的 Series 具 有 一 个 层次 化 索引 (由 唯一 的 键 对 组 
成 ) 

In [20]: means.unstack()Out[20]:key2 one twokey1a 0.880536 0.478943b -0.519439 
-0.555730 

在 上 面 这 些 示例 中 ， 分 组 键 均 为 Series。 实 际 上 ， 分 组 键 可 以 是 任何 长 度 适当 的 数组 : 


In [21]: states = np.array(['Ohio'", 'California', 'California'", 'Ohio', 'Ohio'])In [22]: years = 
np.array([2005, 2005, 2006, 2005, 2006])In [23]: df['data1'].groupby!([states, 
years]).mean()Out[23]:California 2005 0.478943 2006 -0.519439Ohio 2005 -0.380219 2006 
1.965781 


此 外 ， 你 还 可 以 将 列 名 (可 以 是 字符 串 、 数 字 或 其 他 Python 对 象 ) 用 作 分 组 键 : 


In [24]: df.groupby('key1').mean()Out[24]: data1 data2key1a 0.746672 0.910916b -0.537585 
0.525384In [25]: df.groupby(['key1', 'key2']).mMmean()Out[25]: data1 data2key1 key2a one 
0.880536 1.319920 two 0.478943 0.092908b one -0.519439 0.281746 two -0.555730 
0.769023 


你 可 能 已 经 注意 到 了 ， 在 执行 df.groupby('key1').mean() 时 ， 结 果 中 没有 key2 列 。 这 是 因为 
df['key21] 不 是 数值 数据 (俗称 “麻烦 列 ") ， 所 以 被 从 结果 中 排除 了 。 默 认 情况 下 ， 所 有 数值 列 
都 会 被 聚合 ， 虽 然 有 时 可 能 会 被 过 滤 为 一 个 子 集 〈 稍 后 就 会 讲 到 ) 。 


无 论 你 准备 拿 groupby 做 什么 ， 都 有 可 能 会 用 到 GroupBy 的 size 方 法 ， 它 可 以 返回 一 个 含有 分 
组 大 小 的 Series : 


In [26]: df.groupby([key1 'key2"]).size()Out[26]:key1 key2a one 2 two 1b one 1 two 1 


警告 : 到 编写 本 书 时 为 止 ， 分 组 键 中 的 任何 缺失 值 都 会 被 排除 在 结果 之 外 。 在 你 读 到 这 里 的 
时 候 ， 说 不 定 就 已 经 有 一 个 选项 可 以 使 结果 中 包含 NA 组 了 


译注 1 


对 分 组 进行 进 代 


GroupBy 对 象 支持 迭代 ， 可 以 产生 一 组 二 元 元 组 〈 由 分 组 名 和 数据 块 组 成 ) 。 看 看 下 面 这 个 
单 的 数据 集 : 


In [27]: for name, group in df.groupby('key1"): ...: print name .… print group ...:a data1 data2 
key1 key20 -0.204708 1.393406 a one1 0.478943 0.092908 a two4 1.965781 1.246435 a 
oneb data1 data2 key1 key22 -0.519439 0.281746 b one3 -0.555730 0.769023 b two 

对 于 多 重 键 的 情况 ， 元 组 的 第 一 个 元 素 将 会 是 由 键 值 组 成 的 元 组 : 


In [28]: for (k1, k2), group in df.groupby(['key1", 'key2"]): ...: print k1, k2 .… print group ...:a 
one data1 data2 key1 key20 -0.204708 1.393406 a one4 1.965781 1.246435 a onea two 
data1 data2 key1 key21 0.478943 0.092908 a twob one data1 data2 key1 key22 -0.519439 
0.281746 b oneb two data1 data2 key1 key23 -0.55573 0.769023 b two 

当然 ， 你 可 以 对 这 些 数据 片段 做 任何 操作 。 有 一 个 你 可 能 会 觉得 有 用 的 运算 : 将 这 些 数 据 片 
段 做 成 一 个 字典 。 

In [29]: pieces = dict(list(df.groupby(key1'")))In [30]: pieces[b']Out[30]: data1 data2 key1 
key22 -0.519439 0.281746 b one3 -0.555730 0.769023 b two 


groupby 默 认 是 在 axis=0 上 进行 分 组 的 ， 通 过 设置 也 可 以 在 其 他 任何 轴 上 进行 分 组 。 拿 上 面 例 
子 中 的 df 来 说 ， 我 们 可 以 根据 dtype 对 列 进行 分 组 : 


In [31]: df.dtypesOut[31]:data1 float64data2 float64key1 objectkey2 objectln [32]: grouped = 
df.groupby(df.dtypes, axis=1)In [33]: dict(list(grouped))Out[33]:{dtype('float64'): data1 data20 
-0.204708 1.3934061 0.478943 0.0929082 -0.519439 0.2817463 -0.555730 0.7690234 
1.965781 1.246435, dtype(object'): key1 key20 a one1 a two2 b one3 b two4 a one} 


选取 一 个 或 一 组 列 


对 于 由 DataFrame 产 生 的 GroupBy 对 象 ， 如 果 用 一 个 〈 单 个 字符 串 ) 或 一 组 (字符 串 数 组 ) 
列 名 对 其 进行 索引 ， 就 能 实现 选取 部 分 列 进行 聚合 的 目的 。 也 就 是 说 : 


df.groupby('key1')['data1']df.groupby('key1')[['data2"]] 
是 以 下 代码 的 语法 糖 : 
df['data1'].groupby(df['key1'])dfl['data2"]].groupby(df['key1") 


尤其 对 于 大 数据 集 ， 很 可 能 只 需要 对 部 分 列 进行 聚合 。 例 如 ， 在 前 面 那 个 数据 集中 ， 如 果 只 
需 计 算 data2 列 的 平均 值 并 以 DataFrame 形 式 得 到 结果 ， 我 们 可 以 编写 : 


In [34]: df.groupby(['key1'", 'key2'])[['data2"]].mean()Out[34]: data2key1 key2a one 1.319920 
two 0.092908b one 0.281746 two 0.769023 


这 种 索引 操作 所 返回 的 对 象 是 一 个 已 分 组 的 DataFrame (如 果 传 入 的 是 列表 或 数组 ) 或 已 分 
组 的 Series (如 果 传 入 的 是 标量 形式 的 单个 列 名 ) 


In [35]: s_grouped = df.groupby(['key1', 'key2'])['data2']In [36]: s_groupedOut[36]: In [37]: 
s_grouped.mean()Out[37]:key1 key2a one 1.319920 two 0.092908b one 
0.281746 two 0.769023Name: data2 


通过 字典 或 Series 进 行 分 组 
除数 组 以 外 ， 分 组 信息 还 可 以 其 他 形式 存在 。 来 看 另 一 个 示例 DataFrame : 


In [38]: people = DataFrame(np.random.randn(5, 5), .… columns=['a', 'b', 'c'", 'd', 'e'], . 
index=['Joe', 'Steve'", "Wes', 'Jim', "Travis'])In [39]: people.ix[2:3, ['b', '"c]] = np.nan # 添加 几 个 
NA 值 In [40]: peopleOut[40]: a b c d eJoe 1.007189 -1.296221 0.274992 0.228913 
1.352917Steve 0.886429 -2.001637 -0.371843 1.669025 -0.438570Wes -0.539741 NaN 
NaN -1.021228 -0.577087Jim 0.124121 0.302614 0.523772 0.000940 1.343810Travis 
-0.713544 -0.831154 -2.370232 -1.860761 -0.860757 


假设 已 知 列 的 分 组 关系 ， 并 希望 根据 分 组 计算 列 的 总 计 
In [41]: mapping = {'a': red, 'b': 'red', 'c': 'blue'", ...: 'd': 'blue', 'e': 'red', f : 'orange'} 
现在 ， 只 需 将 这 典 传 给 groupby 即 可 : 


In [42]: by_column = people.groupby(mapping, axis=1)In [43]: by_column.sum()Out[43]: blue 
redJoe 0.503905 1.063885Steve 1.297183 -1.553778Wes -1.021228 -1.116829Jim 
0.524712 1.770545Travis -4.230992 -2.405455 


Series 也 有 同样 的 功能 ， 它 可 以 被 看 做 一 个 固定 大 小 的 映射 。 对 于 上 面 那 个 例子 ， 如 果 用 
Series 作 为 分 组 键 ， 则 pandas 会 检查 Series 以 确保 其 索引 跟 分 组 轴 是 对 齐 的 : 


In [44]: map_series = Series(mapping)In [45]: map_seriesOut[45]:a redb redc blued bluee 
redf orangeln [46]: people.groupby(map_series, axis=1).count()Out[46]: blue redJoe 2 
3Steve 2 3Wes 1 2Jim 2 3Travis 23 


责 数 进 行 分 组 


相 较 于 字典 或 Series，Python 函 数 在 定义 分 组 上 映射 关系 时 可 以 更 有 创意 且 更 为 抽象 。 任 何 被 
当做 分 组 键 的 函数 都 会 在 各 个 索引 值 上 被 调用 一 次 ， 其 返回 值 就 会 被 用 作 分 组 名 称 。 具 体 点 
说 ， 以 上 一 小 节 的 示例 DataFrame 为 例 ， 其 索引 值 为 人 的 名 字 。 假 设 你 希望 根据 人 名 的 长 度 
进行 分 组 ， 虽 然 可 以 求 取 一 个 字符 串 长 度数 组 ， 但 其 实 仅 仅 传 入 len 辑 数 就 可 以 了 : 


In [47]: people.groupby(len).sum()Out[47]: ab c d e3 0.591569 -0.993608 0.798764 
-0.791374 2.1196395 0.886429 -2.001637 -0.371843 1.669025 -0.4385706 -0.713544 
-0.831154 -2.370232 -1.860761 -0.860757 


将 函数 跟 数 组 、 列 表 、 字 典 、Series 混 合 使 用 也 不 是 问题 ， 因 为 任何 东西 最 终 都 会 被 转换 为 数 
组 


In [48]: key_list = [one, 'one'", one', two', two']ln [49]: people.groupby([len， 
key_list]).min()Out[49]: a b c d e3 one -0.539741 -1.296221 0.274992 -1.021228 
-0.577087 two 0.124121 0.302614 0.523772 0.000940 1.3438105 one 0.886429 
-2.001637 -0.371843 1.669025 -0.4385706 two -0.713544 -0.831154 -2.370232 -1.860761 
-0.860757 


根据 索引 级 别 分 组 


层次 化 素 引 数据 集 最 方便 的 地 方 就 在 于 它 能 够 根据 索引 级 别 进行 聚合 。 要 实现 该 目的 ， 通 过 
level 关 键 字 传人 级 别 编号 或 名 称 即 可 : 


In [50]: columns = pd.Multilndex.from_arrays([[US' US 'US', JP，JP] ...: [1, 3, 5, 1, 3]], 
names=[cty, tenor])In [51]: hier_df = DataFrame(np.random.randn(4, 5), 
columns=columnsjln [52]: hier_ dfOut[52]:cty US JPtenor 1 3 5 1 30 0.560145 -1.265934 
0.119827 -1.063512 0.3328831 -2.359419 -0.199543 -1.541996 -0.970736 -1.3070302 
0.286350 0.377984 -0.753887 0.331286 1.3497423 0.069877 0.246674 -0.011862 1.004812 
1.32719S5In [53]: hier_df.groupby(level='cty, axis=1).count()Out[S3]:cty JP USO0 2 312 32 2 
3323 


译注 1 
: 翻译 本 书 过 程 中 仍然 没 
数据 聚合 


对 于 聚合 ， 我 指 的 是 任何 能 够 从 数组 产生 标量 值 的 数据 转换 过 程 。 之 前 的 例子 中 我 已 经 用 过 
一 些 ， 比 如 mean、count、min 以 及 sum 等 。 你 可 能 想 知 道 在 GroupBy 对 象 上 调用 mean() 时 究 
竟 发 生 了 什么 。 多 常见 的 聚合 运算 (如 表 9-1 所 示 ) 都 有 就 地 计算 数据 集 统 计 信 息 的 优化 实 
现 。 然 而 ， 并 不 是 只 能 使 用 这 些 方 法 。 你 可 以 使 用 自己 发 明 的 聚合 运算 ， 还 可 以 调用 分 组 对 
象 上 已 经 定义 好 的 任何 方法 。 例 如 ，quantile 可 以 计算 Series 或 DataFrame 列 的 样本 分 位 数 


译注 2 


In [54]: dfOut[54]: data1 data2 key1 key20 -0.204708 1.393406 a one1 0.478943 0.092908 a 
two2 -0.519439 0.281746 b one3 -0.555730 0.769023 b two4 1.965781 1.246435 a oneln 
[55]: grouped = df.groupby('key1')In [56]: grouped[data1].quantile(0.9)Out[56]:key1a 
1.668413b -0.523068 


虽然 quantile 并 没有 明确 地 实现 于 GroupBy， 但 它 是 一 个 Series 方 法 ， 所 以 这 里 是 能 用 的 。 
际 上 ，GroupBy 会 高 效 地 对 Series 进 行 切片 ， 然 后 对 各 片 调用 piece.quantile(0.9)， 最 后 将 这 
些 结果 组 装 成 最 终结 果 。 


将 


如 果 要 使 用 你 自己 的 聚合 梧 数 ， 只 需 将 其 传人 aggregate 或 agg 方 法 即 可 : 


In [57]: def peak_to_peak(arr): ...: return arrmax() - arr.min()In [58]: 
grouped.agg(peak to_peak)oOut[58]: data1 data2key1a 2.170488 1.300498b 0.036292 
0.487276 


注意 ， 有 些 方 法 (如 describe) 也 是 可 以 用 在 这 里 的 ， 即 使 严格 来 讲 ， 它 们 并 非 聚 合 运算 : 


In [59]: grouped.describe()Out[59]: data1 data2key1a count 3.000000 3.000000 mean 
0.746672 0.910916 std 1.109736 0.712217 min -0.204708 0.092908 25% 0.137118 
0.669671 50% 0.478943 1.246435 75% 1.222362 1.319920 max 1.965781 1.393406b count 
2.000000 2.000000 mean -0.537585 0.525384 std 0.025662 0.344556 min -0.555730 
0.281746 25% -0.546657 0.403565 50% -0.537585 0.525384 75% -0.528512 0.647203 max 
-0.519439 0.769023 


在 后 面 关 于 分 组 级 运算 
译注 3 
和 转换 的 那 一 节 中 ， 我 将 详细 说 明 这 到 底 是 怎么 回 事 。 


注意 : 可 能 你 已 经 注意 到 了 ， 自 定义 聚合 函数 要 比 表 9-1 中 那些 经 过 优化 的 函数 慢 得 多 这 是 因 
为 在 构造 中 间 分 组 数据 块 时 存在 非常 大 的 开销 ( 范 数 调用 、 数 据 重 排 等 ) 。 


表 9-1: 经 过 优化 的 groupby** 宇 的 方法 





函数 名 说 明 

count 分 组 中 非 NA 值 的 数量 

sum 非 NA 值 的 和 

mean 非 NA 值 的 平均 值 

median 非 NA 值 的 算术 中 位 数 

std、var 无 偏 (分 母 为 n - 1) 标准 差 和 方差 
min、max 非 NA 值 的 最 小 值 和 最 大 值 

prod 非 NA 值 的 积 

first、last 第 一 个 和 最 后 一 个 非 NA 值 





译注 4 : 这 里 应 该 是 “经 过 优化 的 GroupBy 的 方法 ”， 原 文 有 误 。 


为 了 说 明 一 些 更 高 级 的 聚合 功能 ， 我 将 使 用 一 个 有 关 餐 馆 小 费 的 数据 集 。 我 是 在 R 语 言 的 
reshape2 包 中 得 到 该 数据 集 的 (可 以 在 本 书 的 GitHub 库 中 找到 ) 。 它 最 初出 现 于 Bryant 和 
Smith 在 1995 年 编写 的 一 本 有 关 商 业 统计 的 书 中 。 通 过 read_csv 将 其 加 载 之 后 ， 我 添加 了 一 个 
表示 小 费 比例 的 列 tip_pct。 


In [60]: tips = pd.read_csv('ch08/tips.csv' 央 添加 "小费 占 总 额 百 分 比 ” 的 列 In [61]: tips[tip_pct] 
= tips['tip’] / tips['total_bill]in [62]: tips[:6]Out[62]: total_bill tip sex smoker day time Size 
tip_pct0 16.99 1.01 Female False Sun Dinner 2 0.0594471 10.34 1.66 Male False Sun 


Dinner 3 0.1605422 21.01 3.50 Male False Sun Dinner 3 0.1665873 23.68 3.31 Male False 
Sun Dinner 2 0.1397804 24.59 3.61 Female False Sun Dinner 4 0.1468085 25.29 4.71 Male 
False Sun Dinner 4 0.186240 


面向 列 的 多 画 数 应 用 


我 们 已 经 看 到 ， 对 Series 或 DataFrame 列 的 聚合 运算 其 实 就 是 使 用 aggregate 〈 使 用 自 定义 画 
数 ) 或 调用 诸如 mean、std 之 类 的 方法 。 然 而 ， 你 可 能 希望 对 不 同 的 列 使 用 不 同 的 聚合 函数 ， 
或 一 次 应 用 多 个 本 数 。 其 实 这 事 也 好 办 ， 我 将 通过 一 些 示 例 来 进行 讲解 。 首 先 ， 我 根据 sex 和 
smoker 对 tips 进 行 分 组 : 


In [63]: grouped = tips.groupby(['sex', 'smoker') 
注意 ， 对 于 表 9-1 中 的 那些 描述 统计 ， 可 以 将 函数 名 以 字符 串 的 形式 传人 : 


In [64]: grouped pct = grouped[tip_pct]ln [65]: grouped_pct.agg('mean')Out[65]:sex 
smokerFemale False 0.156921 True 0.182150Male False 0.160669 True 0.152771Name: 
tip_pct 


如 果 传 人 一 组 范 数 或 函数 名 ， 得 到 的 DataFrame 的 列 就 会 以 相应 的 本 数 命名 : 


In [66]: grouped pct.agg(['mean,', 'std', peak to_peak])oOut[66]: mean std peak to_peaksex 
smokerFemale False 0.156921 0.036421 0.195876 True 0.182150 0.071595 0.360233Male 
False 0.160669 0.041849 0.220186 True 0.152771 0.090588 0.674707 


你 并 非 一 定 要 接受 GroupBy 自 动 给 出 的 那些 列 名 ， 特 别 是 lambda 本 数 ， 它 们 的 名 称 

是 '<lambda>'， 这 样 的 辨识 度 就 很 低 了 (通过 函数 的 name 属 性 看 看 就 知道 了 ) 。 如 果 传人 的 
是 一 个 由 (name,function) 元 组 组 成 的 列表 ， 则 各 元 组 的 第 一 个 元 素 就 会 被 用 作 DataFrame 的 
列 名 (可 以 将 这 种 二 元 元 组 列表 看 做 一 个 有 序 映射 ) 


In [67]: grouped_pct.agg([(foo', 'mean'), (bar', np.std)])Out[67]: foo barsex smokerFemale 
False 0.156921 0.036421 True 0.182150 0.071595Male False 0.160669 0.041849 True 
0.152771 0.090588 


对 于 DataFrame， 你 还 可 以 定义 一 组 应 用 于 全 部 列 的 函数 ， 或 不 同 的 列 应 用 不 同 的 函数 。 假 
设 我 们 想 要 对 tip_pct 和 total_bill 列 计算 三 个 统计 信息 : 


In [68]: functions = ['count', 'mean', 'max']In [69]: result = grouped['tip_pct", 
'total_bill].agg(functions)In [70]: resultOut[70]: tip_pct total_bill count mean max count mean 
maxsex smokerFemale False 54 0.156921 0.252672 54 18.105185 35.83 True 33 0.182150 
0.416667 33 17.977879 44.30Male False 97 0.160669 0.291990 97 19.791237 48.33 True 
60 0.152771 0.710345 60 22.284500 50.81 


如 你 所 见 ， 结 果 DataFrame 拥 有 层次 化 的 列 ， 这 相当 于 分 别 对 各 列 进行 聚合 ， 然 后 用 concat 
将 结果 组 装 到 一 起 ( 列 名 用 作 keys 参 数 ) 。 


In [71]: result[tip_pct]oOut[71]: count mean maxsex smokerFemale False 54 0.156921 
0.252672 True 33 0.182150 0.416667Male False 97 0.160669 0.291990 True 60 0.152771 
0.710345 


跟前 面 一 样 ， 这 里 也 可 以 传人 带 有 自 定 义 名 称 的 元 组 列表 : 


In [72]: ftuples = [CDurchschnitt， "mean'), (Abweichung'", np.var)lln [73]: grouped[tip_pct， 
'total_bill].agg(ftuples)Out[73]: tip_pct total_bill Durchschnitt Abweichung Durchschnitt 
Abweichungsex smokerFemale False 0.156921 0.001327 18.105185 53.092422 True 
0.182150 0.005126 17.977879 84.451517Male False 0.160669 0.001751 19.791237 
76.152961 True 0.152771 0.008206 22.284500 98.244673 


现在 ， 假 设 你 想 要 对 不 同 的 列 应 用 不 同 的 函数 。 具 体 的 办 法 是 向 agg 传 人 一 个 从 列 名 映射 到 画 
数 的 字典 : 


In [74]: grouped.agg({'tip' : np.max, 'size' : Sum?y)Out[74]: size tipsex smokerFemale False 
140 5.2 True 74 6.5Male False 263 9.0 True 150 10.0In [75]: grouped.agg({tip_pct’ : ['min,, 
'max', 'mean', 'std'], ...: 'size' : 'sum'})Out[75]: tip_pct size min max mean std sumsex 
smokerFemale False 0.056797 0.252672 0.156921 0.036421 140 True 0.056433 0.416667 
0.182150 0.071595 74Male False 0.071804 0.291990 0.160669 0.041849 263 True 
0.035638 0.710345 0.152771 0.090588 150 


只 有 将 多 个 画 数 应 用 到 至 少 一 列 时 ，DataFrame 才 会 拥有 层次 化 的 列 。 
以 “无 索引 ”的 形式 返回 聚合 数据 


到 目前 为 止 ， 所 有 示例 中 的 聚合 数据 都 有 由 唯一 的 分 组 键 组 成 的 素 引 (可 能 还 是 层次 化 
的 ) 。 由 于 并 不 总 是 需要 如 此 ， 所 以 你 可 以 向 groupby 传 人 as_index=False 以 茶 用 该 功能 : 


In [76]: tips.groupby([sex,'Ssmoker], as_index=False).mean()Out[76]: sex smoker total bill 
tip size tip_pct0 Female False 18.105185 2.773519 2.592593 0.1569211 Female True 
17.977879 2.931515 2.242424 0.1821502 Male False 19.791237 3.113402 2.711340 
0.1606693 Male True 22.284500 3.051167 2.500000 0.152771 


当然 ， 对 结果 调用 reset_index 也 能 得 到 这 种 形式 的 结果 。 
警告 : groupby 的 这 种 用 法 比较 缺乏 灵活 性 。 
译注 2 : 注意 ， 如 果 传 入 的 百 分 位 上 没有 值 ， 则 quantile 会 进行 线性 插值 。 
译注 3 
也 就 是 “面向 分 组 的 计算 。 
分 组 级 运算 和 转换 


合 只 不 过 是 分 组 运算 的 其 中 一 种 而 已 。 它 是 数据 转换 的 一 个 特例 ， 也 就 是 说 ， 它 接受 能 够 
得 一 维 数组 简化 为 标量 值 的 范 数 。 在 本 节 中 ， 我 将 介绍 transform 和 apply 方 法 ， 它 们 能 够 执行 
更 多 其 他 的 分 组 运算 。 


假设 我 们 想 要 为 一 个 DataFrame 添 加 一 个 用 于 存放 各 索引 分 组 平均 值 的 列 。 一 个 办 法 是 先 聚 
合 再 合并 : 


In [77]: dfOut[77]: data1 data2 key1 key20 -0.204708 1.393406 a one1 0.478943 0.092908 a 
two2 -0.519439 0.281746 b one3 -0.555730 0.769023 b two4 1.965781 1.246435 a oneln 
[78]: kimeans = df.groupby('key1').mean().adqd_prefix('mean')In [79]: k1_meansOut[79]: 
mean _ data1 mean_ data2key1a 0.746672 0.910916b -0.537585 0.525384In [80]: 
pd.merge(df, k1_means, left_on="'key1'", right_index=True)Out[80]: data1 data2 key1 key2 
mean_data1 mean_data20 -0.204708 1.393406 a one 0.746672 0.9109161 0.478943 
0.092908 a two 0.746672 0.9109164 1.965781 1.246435 a one 0.746672 0.9109162 
-0.519439 0.281746 b one -0.537585 0.5253843 -0.555730 0.769023 b two -0.537585 
0.525384 


虽然 这 样 也 行 ， 但 是 不 太 灵 活 。 你 可 以 将 该 过 程 看 做 利用 np.mean 辑 数 对 两 个 数据 列 进行 转 
换 。 再 以 本 章 前 面 用 过 的 那个 people DataFrame 为 例 ， 这 次 我 们 在 GroupBy 上 使 用 transform 
方法 : 


In [81]: key = [one', 'two', 'one', two', "one"]ln [82]: people.groupby(key).mean()Out[82]: ab c 
d eone -0.082032 -1.063687 -1.047620 -0.884358 -0.028309two 0.505275 -0.849512 
0.075965 0.834983 0.452620In [83]: people.groupby(key).transform(np.mean)Out[83]:abc 
d eJoe -0.082032 -1.063687 -1.047620 -0.884358 -0.028309Steve 0.505275 -0.849512 
0.075965 0.834983 0.452620Wes -0.082032 -1.063687 -1.047620 -0.884358 -0.028309Jim 
0.505275 -0.849512 0.075965 0.834983 0.452620Travis -0.082032 -1.063687 -1.047620 
-0.884358 -0.028309 


不 难看 出 ，transform 会 将 一 个 画 数 应 用 到 各 个 分 组 ， 然 后 将 结果 放置 到 适当 的 位 置 上 。 如 果 
则 该 值 就 会 被 广播 出 去 。 现 在 ， 假 设 你 希望 从 各 组 中 减 去 平均 
值 。 为 此 ， 我 们 先 创建 一 个 距 平 化 画 数 (demeaning function) ， 然 后 将 其 传 给 transform : 


In [84]: def demean(arr): .… return arr - arr.mean()In [85]: demeaned = 
people.groupby(key).transform(demeanjln [86]: demeanedOut[86]: a b c d eJoe 1.089221 
-0.232534 1.322612 1.113271 1.381226Steve 0.381154 -1.152125 -0.447807 0.834043 
-0.891190Wes -0.457709 NaN NaN -0.136869 -0.548778Jim -0.381154 1.152125 0.447807 
-0.834043 0.891190Travis -0.631512 0.232534 -1.322612 -0.976402 -0.832448 


你 可 以 检查 一 下 demeaned 现 在 的 分 组 平均 值 是 否 为 0 : 
In [87]: demeaned.groupby(key).mean()Out[87]: abcdeone0-0000two-00000 


在 下 一 节 中 你 将 会 看 到 ， 分 组 距 平 化 操作 还 过 apply 实 现 。 


apply : 一 般 性 的 " 拆 分 一 应 用 一 合并 ， 


跟 aggregate 一 样 ，transform 也 是 一 个 有 着 严格 条 件 的 特殊 画 数 : 传 入 的 画 数 只 能 产生 两 种 结 
果 ， 要 么 产生 一 个 可 以 广播 的 标量 值 (如 np.mean) ， 要 么 产生 一 个 相同 大 小 的 结果 数组 。 最 
一 般 化 的 GroupBy 方 法 是 apply， 本 节 剩 余部 分 将 重点 讲解 它 。 如 图 9-1 所 示 ，apply 会 将 待 处 

理 的 对 象 拆 分 成 多 个 片段 ， 然 后 对 各 片段 调用 传 入 的 函数 ， 最 后 尝试 将 各 片段 组 合 到 一 起 。 


回 到 之 前 那个 小 费 数据 集 ， 假 设 你 想 要 根据 分 组 选 出 最 高 的 5 个 tippct 值 。 首 先 ， 编 写 一 个 选 
取 指 定 列 具有 最 大 值 的 行 的 函数 [译注 5](#809468440711498- 

BuChongShuo Ming_Yi Xia_ Chang_Du Xiang_Deng_De_TongZhi De_ ShiQuJianDa_ 
Xiao_Xiang_DengDa Xiao Xiang Deng De_ TongZhi De_ShiShuyu Ju Dian_ Shu Liang X 
iang_Deng) : 


In [88]: def top(df, n=5, column='tip_pct'): ...: return df.sort_index(by=column)[-n:]In [89]: 
top(tips, n=6)Out[89]: total_bill tip sex smoker day time size tip_pct109 14.31 4.00 Female 
True Sat Dinner 2 0.279525183 23.17 6.50 Male True Sun Dinner 4 0.280535232 11.61 3.39 
Male False Sat Dinner 2 0.29199067 3.07 1.00 Female True Sat Dinner 1 0.325733178 9.60 
4.00 Female True Sun Dinner 2 0.416667172 7.25 5.15 Male True Sun Dinner 2 0.710345 


现在 ， 如 果 对 smoker 分 组 并 用 该 函数 调用 apply， 就 会 得 到 : 


In [90]: tips.groupby(smoker').apply(top)Out[90]: total_bill tip sex smoker day time size 
tip_pctsmokerNo 88 24.71 5.85 Male False Thur Lunch 2 0.236746 185 20.69 5.00 Male 
False Sun Dinner 5 0.241663 51 10.29 2.60 Female False Sun Dinner 2 0.252672 149 7.51 
2.00 Male False Thur Lunch 2 0.266312 232 11.61 3.39 Male False Sat Dinner 2 
0.291990Yes 109 14.31 4.00 Female True Sat Dinner 2 0.279525 183 23.17 6.50 Male True 
Sun Dinner 4 0.280535 67 3.07 1.00 Female True Sat Dinner 1 0.325733 178 9.60 4.00 
Female True Sun Dinner 2 0.416667 172 7.25 5.15 Male True Sun Dinner 2 0.710345 


这 里 发 生 了 什么 ?top 画 数 在 DataFrame 的 各 个 片段 上 调用 ， 然 后 结果 由 pandas.concat 组 装 到 
一 起 ， 并 以 分 组 名 称 进行 了 标记 。 于 是 ， 最 终结 果 就 有 了 一 个 层次 化 索引 ， 其 内 层 索 引 值 来 
自 原 DataFrame。 


如 果 传 给 apply 的 函数 能 够 接受 其 他 参数 或 关键 字 ， 则 可 以 将 这 些 内 容 放 在 函数 名 后 面 一 并 传 
人 : 


In [91]: tips.groupby([Smoker, 'day']).apply(top, n=1, column='total_bill)Out[91]: total_bill tip 
sex Smoker day time size tip_pctsmoker dayNo Fri 94 22.75 3.25 Female False Fri Dinner 2 
0.142857 Sat 212 48.33 9.00 Male False Sat Dinner 4 0.186220 Sun 156 48.17 5.00 Male 
False Sun Dinner 6 0.103799 Thur 142 41.19 5.00 Male False Thur Lunch 5 0.121389Yes 
Fri 95 40.17 4.73 Male True Fri Dinner 4 0.117750 Sat 170 50.81 10.00 Male True Sat 
Dinner 3 0.196812 Sun 182 45.35 3.50 Male True Sun Dinner 3 0.077178 Thur 197 43.11 
5.00 Female True Thur Lunch 4 0.115982 


注意 : 除 这 些 基本 用 法 之 外 ， 能 否 充分 发 挥 apply 的 威力 很 大 程度 上 取决 于 你 的 创造 力 。 传 入 
的 那个 函数 能 做 什么 全 由 你 说 了 算 ， 它 只 需 返 回 一 个 pandas 对 象 或 标量 值 即 可 。 本 章 后 续 部 
分 的 示例 主要 用 于 讲解 如 何 利 用 groupby 解 决 各 种 各 样 的 问题 。 


可 能 你 已 经 想起 来 了 ， 之 前 我 在 GroupBy 对 象 上 调用 过 describe : 


In [92]: result = tips.groupby('smoker')[tip_pct'].describe()In [93]: resultOut[93]:smokerNo 
count 151.000000 mean 0.159328 std 0.039910 min 0.056797 25% 0.136906 50% 
0.155625 75% 0.185014 max 0.291990Yes count 93.000000 mean 0.163196 std 0.085119 
min 0.035638 25% 0.106771 50% 0.153846 75% 0.195059 max 0.710345In [94]: 
result.unstack(Csmoker)Out[94]:smoker No Yescount 151.000000 93.000000mean 0.159328 
0.163196std 0.039910 0.085119min 0.056797 0.03563825% 0.136906 0.10677150% 
0.155625 0.15384675% 0.185014 0.195059max 0.291990 0.710345 


在 GroupBy 中 ， 当 你 调用 诸如 describe 之 类 的 方法 时 ， 实 际 上 只 是 应 用 了 下 面 两 条 代码 的 快捷 
方式 而 已 : 


f= lambda x: x.describe()grouped.apply(f) 
禁止 分 组 键 


从 上 面 的 例子 中 可 以 看 出 ， 分 组 键 会 跟 原始 对 象 的 索引 共同 构成 结果 对 象 中 的 层次 化 素 引 。 
将 group_keys=False 传 和 人 groupby 即 可 禁止 该 效果 : 


In [95]: tips.groupby('smoker', group_keys=False).apply(top)Out[95]: total_bill tip sex smoker 
day time size tip_pct88 24.71 5.85 Male False Thur Lunch 2 0.236746185 20.69 5.00 Male 
False Sun Dinner 5 0.24166351 10.29 2.60 Female False Sun Dinner 2 0.252672149 7.51 
2.00 Male False Thur Lunch 2 0.266312232 11.61 3.39 Male False Sat Dinner 2 
0.291990109 14.31 4.00 Female True Sat Dinner 2 0.279525183 23.17 6.50 Male True Sun 
Dinner 4 0.28053567 3.07 1.00 Female True Sat Dinner 1 0.325733178 9.60 4.00 Female 
True Sun Dinner 2 0.416667172 7.25 5.15 Male True Sun Dinner 2 0.710345 


分 位 数 和 桶 分 析 


我 鲁 在 第 7 章 中 讲 过 ，pandas 有 一 些 能 根据 指定 面 元 或 样本 分 位 数 将 数据 拆 分 成 多 块 的 工具 
(比如 cut 和 qcut) 。 将 这 些 函 数 跟 groupby 结 合 起 来 ， 就 能 非常 轻松 地 实现 对 数据 集 的 桶 
(bucket) 或 分 位 数 (quantile) 分 析 了 。 以 下 面 这 个 简单 的 随机 数据 集 为 例 ， 我 们 利用 cut 将 

其 装 入 长 度 相等 的 桶 中 : 


In [96]: frame = DataFrame({'data1': np.random.randn(1000), ...: "data2 
np.random.randn(1000)})In [97]: factor = pd.cut(frame.data1, 4)In [98]: 
factor[:10]Out[98]:Categorical:array([(-1.23, 0.489], (-2.956, -1.23], (-1.23, 0.489], (0.489, 
2.208], (-1.23, 0.489], (0.489, 2.208], (-1.23, 0.489], (-1.23, 0.489], (0.489, 
2.208], (0.489, 2.208]], dtype=object)Levels (4): Index([(-2.956, -1.23], (-1.23, 0.489], (0.489, 
2.208], (2.208, 3.928]], dtype=object) 


由 cut 返 回 的 Factor 对 象 可 直接 用 于 groupby。 因 此 ， 我 们 可 以 像 下 面 这 样 对 data2 做 一 些 统计 
计算 : 


In [99]: def get_stats(group): ...: return {min': group.min(), 'max': group.max(), ...: "count : 
group.count(), "mean': group.mean()}Hn [100]: grouped = frame.data2.groupby(factor)In 
[101]: grouped.apply(get_stats).unstack()Out[101]: count max mean mindata1(-1.23, 0.489] 
598 3.260383 -0.002051 -2.989741(-2.956, -1.23] 95 1.670835 -0.039521 -3.399312(0.489， 
2.208] 297 2.954439 0.081822 -3.745356(2.208, 3.928] 10 1.765640 0.024750 -1.929776 


这 些 都 是 长 度 相等 的 桶 。 要 根据 样本 分 位 数 得 到 大 小 相等 的 桶 ， 使 用 qcut 即 可 
译注 6 


。 传 入 labels=False 即 可 只 获取 分 位 数 的 编号 。 


返回 分 位 数 编号 In [102]: grouping = 
pd.qcut(frame.data1, 10, labels=False)In 
[103]: grouped = 
frame.data2.groupby(groupingjln [104]: 
grouped.apply(get_ stats).unstack()Out[104 
]: count max mean min0 100 1.670835 
-0.049902 -3.3993121 100 2.628441 
0.030989 -1.9500982 100 2.527939 
-0.067179 -2.9251133 100 3.260383 
0.065713 -2.3155554 100 2.074345 
-0.111653 -2.0479395 100 2.184810 
0.052130 -2.9897416 100 2.458842 
-0.021489 -2.2235067 100 2.954439 
-0.026459 -3.0569908 100 2.735527 
0.103406 -3.7453569 100 2.377020 0.220122 
-2.064111 


示例 : 用 特定 于 分 组 的 值 填充 缺失 值 


对 于 缺失 数据 的 清理 工作 ， 有 时 你 会 用 dropna 将 其 滤 除 ， 而 有 时 则 可 能 会 希望 用 一 个 固定 值 
或 由 数据 集 本 身 所 衍生 出 来 的 值 去 填充 NA 值 。 这 时 就 得 使 用 人 fillIna 这 个 工具 了 。 在 下 面 这 个 例 
子 中 ， 我 用 平均 值 去 填充 NA 值 : 


In [105]: s = Series(np.random.randn(6))In [106]: s[::2] = np.nanln [107]: SOut[107]:0 NaN1 
-0.1259212 NaN3 -0.8844754 NaN5 0.227290In [108]: s.fillna(s.mean())Out[108]:0 
-0.2610351 -0.1259212 -0.2610353 -0.8844754 -0.2610355 0.227290 


假设 你 需要 对 不 同 的 分 组 填充 不 同 的 值 。 可 能 你 已 经 猜 到 了 ， 只 需 将 数据 分 组 ， 并 使 用 apply 
和 一 个 能 够 对 各 数据 块 调用 fna 的 函数 即 可 。 下 面 是 一 些 有 关 美 国 几 个 州 的 示例 数据 ， 这 些 
州 又 被 分 为 东部 和 西部 : 


In [109]: states = [Ohio', 'New York', 'Vermont', 'Florida', ...: 'Oregon', 'Nevada'", 'California,, 
'Idaho']in [110]: group_key = [East] 4 + /West' 4In [111]: data = Series(np.random.randn(8), 
index=states)ln [112]: datal[ Vermont', 'Nevada', 'I|daho']l] = np.nanln [113]: dataOut[113]:Ohio 
0.922264New York -2.153545Vermont NaNFlorida -0.375842Oregon 0.329939Nevada 
NaNCalifornia 1.105913ldaho NaNln [114]: data.groupby(group_key).mean()Out[114]:East 
-0.535707West 0.717926 


我 们 可 以 用 分 组 平均 值 去 填充 NA 值 ， 如 下 所 示 : 


In [115]: fill_mean = lambda g: g.fillIna(g.mean())In [116]: 
data.groupby(group_key).apply(fill_ mean)Out[116]:Ohio 0.922264New York 
-2.153545Vermont -0.535707Florida -0.375842Oregon 0.329939Nevada 0.717926California 
1.105913ldaho 0.717926 


此 外 ， 也 可 以 在 代码 中 预定 义 各 组 的 填充 值 。 由 于 分 组 具有 一 个 name 属 性 ， 所 以 我 们 可 以 拿 
来 用 一 下 : 


In [1171: fill_values = {East': 0.5, "West': -1}In [118]: fill_ func = lambda g: 
g.fillIna(fill_values[g.name])In [119]: data.groupby(group_key).apply(fill_func)Out[119]:Ohio 
0.922264New York -2.153545Vermont 0.500000Florida -0.375842Oregon 0.329939Nevada 
-1.000000California 1.105913ldaho -1.000000 


示例 : 随机 采 祥 和 排列 


假设 你 想 要 从 一 个 大 数据 集中 随机 抽取 样本 以 进行 蒙特 卡 罗 模 拟 (Monte Carlo simulation ) 
或 其 他 分 析 工 作 。 "抽取 ”的 方式 有 很 多 ， 其 中 一 些 的 效率 会 比 其 他 的 高 很 多 。 一 个 办 法 是 ， 选 
取 np.random.permutation(N) 的 前 K 个 元 素 ， 其 中 N 为 完整 数据 的 大 小 ，K 为 期 望 的 样本 大 小 。 
作为 一 个 更 有 趣 的 例子 ， 下 面 是 构造 一 副 英语 型 扑克 牌 的 一 个 方式 : 


红 桃 (Hearts) 、 黑 桃 (Spades) 、 梅 花 
(Clubs) 、 方 片 (Diamonds) suits = ['H', 


'S','C'", 'D']card_val = (range(1, 11) + [10] 3) 
4base_names = ['A'] + range(2, 11) + [J,, 
'K'", 'Q'lcards = []for suit in [HS 'C", 'D': 
cards.extend(str(num) + suit for num in 
base names)deck = Series(card_val, 
index=cards) 


现在 我 有 了 一 个 长 度 为 52 的 Series， 其 索引 为 牌 名 ， 值 则 是 21 点 或 其 他 游戏 中 用 于 计 分 的 点 
数 (为 了 简单 起 见 ， 我 当 A 的 点 数 为 1) 


In [121]: deck[:13]Out[121]:AH 12H 23H 34H 45H 56H 67H 78H 89H 910H 10JH 10KH 
10QH 10 


现在 ， 根 据 我 上 面 所 讲 的 ， 从 整 副 牌 中 抽出 5 张 ， 代 码 如 下 : 


In [122]: def draw(deck, n=5): .… return deck.take(np.random.permutation(len(deck))[:n])In 
[123]: draw(deck)Out[123]:AD 18C 85H 5KC 102C 2 


假设 你 想 要 从 每 种 花色 中 随机 抽取 两 张 牌 。 由 于 花色 是 牌 名 的 最 后 一 个 字符 ， 所 以 我 们 可 以 
据 此 进行 分 组 ， 并 使 用 apply : 


In [124]: get_suit = lambda card: card[-1] # 只 要 最 后 一 个 字母 就 可 以 了 In [125]: 
deck.groupby(get_suit).apply(draw, n=2)Out[125]:C 2C 2 3C 3D KD 10 8D 8H KH 10 3H 3S 
2S 2 4S 4# 另 一 种 办 法 In [126]: deck.groupby(get_suit, group_keys=False).apply(draw, 
n=2)Out[126]:KC 10JC 10AD 15D 55H 56H 67S 7KS 10 


示例 : 分 组 加 权 平 均 数 和 相关 系数 


根据 groupby 的 “ 拆 分 一 应 用 一 合并 ”范式 ，DataFrame 的 列 与 列 之 间或 两 个 Series 之 间 的 运算 
(比如 分 组 加 权 平 均 ) 成 为 一 种 标准 作业 。 以 下 面 这 个 数据 集 为 例 ， 它 含有 分 组 键 、 值 以 及 
一 些 权重 值 : 


In [127]: df = DataFrame!({'category': ['a', 'a', 'a', 'a', 'b', 'b', 'b', 'b'], ...: 'data': 
np.random.randn(8), ...: "weights': np.random.rand(8)})In [128]: dfOut[128]: category data 
weights0 a 1.561587 0.9575151 a 1.219984 0.3472672 a -0.482239 0.5813623 a 0.315667 
0.2170914 b -0.047852 0.8944065 b -0.454145 0.9185646 b -0.556774 0.2778257 b 
0.253321 0.955905 


然后 可 以 利用 category 计 算 分 组 加 权 平 均 数 : 


In [129]: grouped = df.groupby(category')ln [130]: get wavg = lambda g: 
np.average(g['data'], weights=g['weights'])In [131]: 
grouped.apply(get wavg)Out[131]:categorya 0.811643b -0.122262 


这 个 例子 比较 无 聊 ， 所 以 再 看 一 个 稍微 实际 点 的 例子 一 一 来 自 YahoolFinance 的 数据 集 ， 其 中 
含有 标准 普尔 500 指 数 (SPX 字 段 ) 和 几 只 股票 的 收 瘟 价 : 


In [132]: close_ px = pd.read_csv(ch09/stock_px.csv, parse _ dates=True, index_col=0)In 
[133]: close_pxOut[133]:Datetimelndex: 2214 entries, 2003-01-02 00:00:00 to 2011-10-14 
00:00:00Data columns:AAPL 2214 non-null values MSFT 2214 non-null valuesXOM 2214 
non-null valuesSPX 2214 non-null valuesdtypes: float64(4)In [134]: close_px[-4:]Out[134]: 
AAPL MSFT XOM SPX2011-10-11 400.29 27.00 76.27 1195.542011-10-12 402.19 26.96 
77.16 1207.252011-10-13 408.43 27.18 76.37 1203.662011-10-14 422.00 27.27 78.11 
1224.58 


来 做 一 个 比较 有 趣 的 任务 : 计算 一 个 由 日 收益 率 (通过 百分数 变化 计算 ) 与 SPX 之 间 的 年 度 
相关 系数 组 成 的 DataFrame。 下 面 是 一 个 实现 办 法 : 


In [135]: rets = close_px.pct_change().dropna()In [136]: spx_corr = lambda x: 
x.corrwith(x['SPX')In [137]: by_year = rets.groupby(lambda x: x.year)ln [138]: 
by_year.apply(spx_corr)Out[138]: AAPL MSFT XOM SPX2003 0.541124 0.745174 0.661265 
12004 0.374283 0.588531 0.557742 12005 0.467540 0.562374 0.631010 12006 0.428267 
0.406126 0.518514 12007 0.508118 0.658770 0.786264 12008 0.681434 0.804626 
0.828303 12009 0.707103 0.654902 0.797921 12010 0.710105 0.730118 0.839057 12011 
0.691931 0.800996 0.859975 1 


当然 ， 你 还 可 以 计算 列 与 列 之 间 的 相关 系数 : 


荣 果 和 微软 的 年 度 相关 系数 In [139]: 
by_year.apply(lambda g: 
g['AAPL'].corr(g['MSFT'"]))Out[139]:2003 
0.4808682004 0.2590242005 0.3000932006 
0.1617352007 0.4177382008 0.6119012009 
0.4327382010 0.5719462011 0.581987 


示例 : 面向 分 组 的 线性 回 有 


顺 着 上 一 个 例子 继续 ， 你 可 以 用 groupby 执 行 更 为 复杂 的 分 组 统计 分 析 ， 只 要 画 数 返回 的 是 
pandas 对 象 或 标量 值 即 可 。 例 如 ， 我 可 以 定义 下 面 这 个 regress 画 数 (利用 statsmodels 库 ) 
对 各 数据 块 执行 普通 最 小 二 乘法 (Ordinary Least Squares，OLS) 回 肖 : 


import statsmodels.api as smdef regress(data, yvar, xvars): Y = data[yvar] X = data[xvars] 
X[intercept] = 1. result = sm.OLS(Y X).fit() return result.params 


现在 ， 为 了 按 年 计算 AAPL 对 SPX 收 益 率 的 线性 回 轨 ， 我 执行 : 


In [141]: by_year.apply(regress, 'AAPL', [SPX'])Out[141]: SPX intercept2003 1.195406 
0.0007102004 1.363463 0.0042012005 1.766415 0.0032462006 1.645496 0.0000802007 
1.198761 0.0034382008 0.968016 -0.0011102009 0.879103 0.0029542010 1.052608 
0.0012612011 0.806605 0.001514 


译注 5 

: 原文 比较 舞 口 ， 其 实 就 是 “在 指定 列 找 出 最 大 值 ， 然 后 把 这 个 值 所 在 的 行 选取 出 来 "。 
译注 6 

: 补充 说 明 一 下 。 “长 度 相 等 的 桶 " 指 的 是 “区 间 大 小 相等 ” “大 小 相等 的 桶 " 指 的 是 “数据 点 数量 
相等 ”。 

透视 表 和 交 表 


透视 表 (pivot table) 是 各 种 电子 表格 程序 和 其 他 数据 分 析 软 件 中 一 种 常见 的 数据 汇总 工具 。 
它 根 据 一 个 或 多 个 键 对 数据 进行 聚合 ， 并 根据 行 和 列 上 的 分 组 键 将 数据 分 配 到 各 个 矩形 区 域 
中 。 在 Python 和 pandas 中 ， 可 以 通过 本 章 所 介绍 的 groupby 功 能 以 及 能够 利用 层次 化 索引 
的 ) 重 塑 运算 制作 透视 表 。DataFrame 有 一 个 pivot table 方 法 ， 此 外 还 有 一 个 顶级 的 
pandas.pivot_table 函 数 。 除 能 为 groupby 提 供 便利 之 外 ，pivot_table 还 可 以 添加 分 项 小 计 (也 
叫做 margins) 。 


还 
还 


回 到 小 费 数据 集 ， 假 设 我 想 要 根据 sex 和 smoker 计 算 分 组 平均 数 (pivot table 的 默认 聚合 类 
型 ) ， 并 将 sex 和 smoker 放 到 行 上 : 


In [142]: tips.pivot_ table(rows=['sex, 'smoker])Out[142]: size tip tip_pct total_billsex 
smokerFemale No 2.592593 2.773519 0.156921 18.105185 Yes 2.242424 2.931515 
0.182150 17.977879Male No 2.711340 3.113402 0.160669 19.791237 Yes 2.500000 
3.051167 0.152771 22.284500 


这 对 groupby 来 说 也 是 很 简单 的 事情 。 现 在 ， 假 设 我 们 只 想 聚 合 tip_pct 和 size， 而 且 想 根据 
day 进 行 分 组 。 我 将 smoker 放 到 列 上 ， 把 day 放 到 行 上 : 


In [143]: tips.pivot_table(['tip_pct', 'size'], rows=['sex', 'day'], … cols=smoker )Out[143]: 
tip_pct sizesmoker No Yes No Yessex dayFemale Fri 0.165296 0.209129 2.500000 
2.000000 Sat 0.147993 0.163817 2.307692 2.200000 Sun 0.165710 0.237075 3.071429 


2.500000 Thur 0.155971 0.163073 2.480000 2.428571Male Fri 0.138005 0.144730 
2.000000 2.125000 Sat 0.162132 0.139067 2.656250 2.629630 Sun 0.158291 0.173964 
2.883721 2.600000 Thur 0.165706 0.164417 2.500000 2.300000 


还 可 以 对 这 个 表 作 进一步 的 义理， 传人 margins=True 添 加 分 项 小 计 。 这 将 会 添加 标签 为 All 的 
行 和 列 ， 其 值 对 应 于 单个 等 级 中 所 有 数据 的 分 组 统计 。 在 下 面 这 个 例子 中 ，All 值 为 平均 数 : 
不 单独 考虑 烟 民 与 非 烟 民 (All 列 ) ， 不 单独 考虑 行 分 组 两 个 级 别 中 的 任何 单项 (All 行 ) 。 


In [144]: tips.pivot_table(['tip_pct', 'size'], rows=['sex', 'day'], .… cols='smoker， 
margins=True)Out[144]: size tip_pctsmoker No Yes All No Yes Allsex dayFemale Fri 
2.500000 2.000000 2.111111 0.165296 0.209129 0.199388 Sat 2.307692 2.200000 
2.250000 0.147993 0.163817 0.156470 Sun 3.071429 2.500000 2.944444 0.165710 
0.237075 0.181569 Thur 2.480000 2.428571 2.468750 0.155971 0.163073 0.157525Male 
Fri 2.000000 2.125000 2.100000 0.138005 0.144730 0.143385 Sat 2.656250 2.629630 
2.644068 0.162132 0.139067 0.151577 Sun 2.883721 2.600000 2.810345 0.158291 
0.173964 0.162344 Thur 2.500000 2.300000 2.433333 0.165706 0.164417 0.165276All 
2.668874 2.408602 2.569672 0.159328 0.163196 0.160803 


要 使 用 其 他 的 聚合 函数 ， 将 其 传 给 aggfunc 妈 可。 例如， 使 用 count 或 len 可 以 得 到 有 关 分 组 大 
小 的 交叉 表 : 


In [145]: tips.pivot_table(tip_pct, rows=['sex', 'smoker'], cols='day, ...: aggfunc=len， 
margins=True)Out[145]:day Fri Sat Sun Thur Allsex smokerFemale No 2 13 14 25 54 Yes 7 
154733MaleNo2 32 43 20 97 Yes 8 27 15 10 60All 19 87 76 62 244 


如 果 存 在 空 的 组 合 (也 就 是 NA) ， 你 可 能 会 希望 设置 一 个 fi_value : 


In [146]: tips.pivot_table('size', rows=['time', 'sex', 'smoker'", ...: cols='day'", aggfunc='sum, 
fill_value=0)Out[146]:day Fri Sat Sun Thurtime sex smokerDinner Female No 2 30 43 2 Yes 
8 33 10 0 Male No 4 85 124 0 Yes 12 71 39 OLunch Female No 30060 Yes60017Male 
No00050Yes50023 


pivot_table 的 参数 说 明 请 参见 表 9-2。 


表 9-2: pivot_table 的 参数 


参数 名 说 明 

values 待 聚 合 的 列 的 名 称 。 默 认 聚 合 所 有 数值 列 

rowWs 用 于 分 组 的 列 名 或 其 他 分 组 键 ， 出 ee 

cols 用 于 分 组 的 列 名 或 其 他 分 组 键 ， 出 现在 结果 透视 表 的 列 

aggfunc 聚合 函数 或 函数 列表 ， 默 认为 'mean'。 可 以 是 任何 对 groupby 有 效 的 函数 
fill_value 用 于 替换 结果 表 中 的 缺失 值 

margins 添加 行 / 列 小 计 和 总 计 ， 默 认为 False 


交叉 表 : crosstab 


交叉 表 (cross-tabulation， 简称 crosstab) 是 一 种 用 于 计算 分 组 频率 的 特殊 透视 表 。 下 面 这 个 
范例 数据 很 典型 ， 取 自 交 叉 表 的 Wikipedia 页 : 


In [150]: dataOut[150]: Sample Gender Handedness0 1 Female Right-handed1 2 Male Left- 
handed2 3 Female Right-handed3 4 Male Right-handed4 5 Male Left-handed5 6 Male Right- 
handed6 7 Female Right-handed7 8 Female Left-handed8 9 Male Right-handed9 10 Female 
Right-handed 


假设 我 们 想 要 根据 性 别 和 用 手 习 惯 对 这 段 数据 进行 统计 汇总 。 虽 然 可 以 用 pivot_table 实 现 该 功 
能 ， 但 是 pandas.crosstab 辑 数 会 更 方便 : 


In [151]: pd.crosstab(data.Gender, data.Handedness, margins=True)Out[151]:Handedness 
Left-handed Right-handed AllGenderFemale 14 5Male 2 3 5AIll 37 10 


crosstab 的 前 两 个 参数 可 以 是 数组 、Series 或 数组 列表 。 再 比如 对 小 费 数据 集 : 


In [152]: pd.crosstab([tips.time, tips.day]l, tips.smoker, margins=True)Out[152]:smoker No 
Yes Alltime dayDinner Fri 3 9 12 Sat 45 42 87 Sun57 1976Thur101Lunch Fri 16 7 Thur 
44 17 61All 151 93 244 


示例 : 2012 联 邦 选 举 委 员 会 数据 库 


美国 联邦 选举 委员 会 发 布 了 有 关 政 治 竞 选 先 助 方 面 的 数据 。 其 中 包括 赞助 者 的 姓名 、 职 业 、 
历 主 、 地 址 以 及 出 资 额 等 信息 。 我 们 对 2012 年 美国 总 统 大选 的 数据 集 比 较 感 兴趣 
(http://www.fec.gov/disclosurep/PDownload.do) 。 到 编写 本 书 时 为 止 (2012 年 6 月 ) ， 酒 
盖 全 美 各 州 的 完整 数据 集 是 一 个 150MB 的 CSV 文 件 (P00000001-ALL.csv) ， 我 们 先 用 
pandas.read_csv 将 其 加 载 进来 : 


In [13]: fec = pd.read_csv(ch09/P00000001-ALL.csv')In [14]: fecOut[14]:Int64Index: 
1001731 entries, 0 to 1001730Data columns:cmte id 1001731 non-null valuescand id 
1001731 non-null valuescand_nm 1001731 non-null valuescontbr_nm 1001731 non-null 
valuescontbr_city 1001716 non-null valuescontbr_st 1001727 non-null valuescontbr_zip 
1001620 non-null valuescontbr_employer 994314 non-null valuescontbr_occupation 994433 
non-null valuescontb_receipt_amt 1001731 non-null valuescontb_receipt_dt 1001731 non- 
null valuesreceipt desc 14166 non-null valuesmemo_cd 92482 non-null valuesmemo _text 
97770 non-null valuesform tp 1001731 non-null valuesfile_num 1001731 non-null 
valuesdtypes: float64(1), int64(1), object(14) 


该 DataFrame 中 的 记录 如 下 所 示 : 


In [15]: fec.ix[123456]Out[15l:cmte_id C00431445cand_id P80003338cand_nm Obama, 
Barackcontbr_nm ELLMAN, IRAcontbr_city TEMPEcontbr_st AZcontbr_zip 
852816719contbr_employer ARIZONA STATE UNIVERSITYcontbr_occupation 
PROFESSORcontb_receipt amt 50contb_receipt dt 01-DEC-11receipt desc NaNmemo cd 
NaNmemo_text NaNform_ tp SA17Afile_num 772372Name: 123456 


你 可 能 已 经 想 出 了 许多 办 法 从 这 些 竞选 赞助 数据 中 抽取 有 关 痪 助人 和 将 助 模式 的 统计 信息 。 
我 将 在 接 下 来 的 内 容 中 介绍 几 种 不 同 的 分 析 工 作 (运用 到 目前 为 止 已 经 学 到 的 技术 ) 。 


不 难看 出 ， 该 数据 中 没有 党 派 信息 ， 因 此 最 好 把 它 加 进去 。 通 过 unique， 你 可 以 获取 全 部 的 
候选 人 名 单 《注意 ，NumPy 不 会 输出 信息 中 字符 串 两 侧 的 引号 ) 


In [16]: unique_cands = fec.cand_nm.unique(ln [17]: 
unique_candsOut[17]:array([Bachmann, Michelle, Romney, Mitt, Obama, Barack, Roemer, 
Charles E. 'Buddy' ll, Pawlenty, Timothy, Johnson, Gary Earl, Paul, Ron, Santorum, Rick, 
Cain, Herman, Gingrich, Newt, McCotter, Thaddeus G, Huntsman, Jon, Perry, Rick], 
dtype=object)In [18]: unique_cands[2]Out[18]: 'Obama, Barack' 


最 简单 的 办 法 是 利用 字典 说 明 党 派 关 系 


NS 


注 1 


parties = {Bachmann, Michelle: "Republican', 'Cain, Herman': "Republican'", 'Gingrich, Newt': 
'Republican', "Huntsman, Jon': 'Republican', "Johnson, Gary Earl': "Republican', "McCotter, 
Thaddeus G': 'Republican', 'Obama, Barack': 'Democrat'", 'Paul, Ron': 'Republican,, 
'Pawlenty, Timothy': "Republican'", 'Perry, Rick': 'Republican', "Roemer, Charles E. "Buddy IM: 
'Republican', "Romney, Mitt: 'Republican', 'Santorum, Rick': 'Republican'} 


现在 ， 通 过 这 个 映射 以 及 Series 对 象 的 map 方 法 ， 你 可 以 根据 候选 人 姓名 得 到 一 组 党 派 信息 : 


In [20]: fec.cand_nm[123456:123461]Out[20]:123456 Obama, Barack123457 Obama, 
Barack123458 Obama, Barack123459 Obama, Barack123460 Obama, BarackName: 
cand_nmln [21]: fec.cand_nm[123456:123461].map(parties)Out[21]:123456 
Democrat123457 Democrat123458 Democrat123459 Democrat123460 DemocratName: 
cand_nm# 将 其 添加 为 一 个 新 列 In [22]: fec['party] = fec.cand_nm.map(parties)ln [23]: 
fec[party].value_counts()Out[23]:Democrat 593746Republican 407985 


这 里 有 两 个 需要 注意 的 地 方 。 第 一 ， 该 数据 既 包 括 攀 助 也 包括 退 款 〈 负 的 出 资 领 ) 

In [24]: (fec.contb _receipt amt > 0).value_counts()Out[24]:True 991475False 10256 
为 了 简化 分 析 过 程 ， 我 限定 该 数据 集 只 能 有 正 的 出 资 领 : 

In [25]: fec = fec[fec.contb_receipt amt > 0] 


由 于 Barack Obama 和 Mitt Romney 是 最 主要 的 两 名 候选 人 ， 所 以 我 还 专门 准备 了 一 个 子 集 ， 
只 包含 针对 他 们 两 人 的 竞选 活动 的 赞助 信息 : 


In [26]: fec_mrbo = fec[fec.cand_nm.isin([Obama, Barack', 'Romney, Mitt])] 


根据 职业 和 履 主 统计 梦 助 信息 


基于 职业 的 赞助 信息 统计 是 另 一 种 经 常 被 研究 的 统计 任务 。 例 如 ， 律 病 们 更 倾向 于 资助 民主 
党 ， 而 企业 主 则 更 倾向 于 资助 共和 党 。 你 可 以 不 相信 我 ， 自 己 看 那些 数据 就 知道 了 。 首 先 ， 
根据 职业 计算 出 资 总 额 ， 这 很 简单 : 


In [27]: fec.contbr_ occupation.value_counts()[:10]Out[27]:RETIRED 233990INFORMATION 
REQUESTED 35107ATTORNEY 34286HOMEMAKER 29931PHYSICIAN 
23432INFORMATION REQUESTED PER BEST EFFORTS 21138ENGINEER 
14334TEACHER 13990CONSULTANT 13273PROFESSOR 12555 


不 难看 出 ， 许 多 职业 都 涉及 相同 的 基本 工作 类 型 ， 或 者 同一 样 东 西 有 多 种 变 体 。 下 面 的 代码 
片段 可 以 清理 一 些 这 样 的 数据 ee i 。 注 意 ， 这 里 巧妙 地 利用 了 
dict.get， 它 允许 没有 了 映射 关系 的 职业 也 能 “ 通 


occ_mapping ={ INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT PROVIDED,, 
'INFORMATION REQUESTED' : 'NOT PROVIDED'，INFORMATION REQUESTED (BEST 
EFFORTS) : 'NOT PROVIDED', 'C.E.O.': 'CEO'"# 如 果 没 有 提供 相关 映射 ， 则 返回 xf = 
lambda x: occ_mapping.get(x, xjfec.contbr_ occupation = fec.contbr_ occupation.map() 


我 对 历 主 信息 也 进行 了 同样 的 处 理 : 


emp_mapping ={ INFORMATION REQUESTED PER BEST EFFORTS' : 'NOT 
PROVIDED'", 'INFORMATION REQUESTED' : 'NOT PROVIDED', 'SELF' : 'SELF- 
EMPLOYED', 'SELF EMPLOYED' :'SELF-EMPLOYED', 阐 如 果 没 有 提供 相关 映射 ， 则 返回 xf 
= lambda x: emp_mapping.get(x, xjfec.contbr_ employer = fec.contbr_ employermap(f) 


现在 ， 你 可 以 通过 pivot_table 根 据 党 派 和 职业 对 数据 进行 聚合 ， 然 后 过 滤 掉 总 出 资 额 不 足 200 
万 美元 的 数据 : 


In [34]: by_occupation = fec.pivot table('contb_receipt amt', ...: rows='contbr_occupation,, 
.: Cols='party, aggfunc="'sum')In [35]: over 2mm = by_occupation[by_occupation.sum(1) > 
2000000]In [36]: over_2mmOut[36]:party Democrat 
Republicancontbr_occupationATTORNEY 11141982.97 7477194.430000CEO 2074974.79 
4211040.520000CONSULTANT 2459912.71 2544725.450000ENGINEER 951525.55 
1818373.700000EXECUTIVE 1355161.05 4138850.090000HOMEMAKER 4248875.80 
13634275.780000INVESTOR 884133.00 2431768.920000LAWYER 3160478.87 
391224.320000MANAGER 762883.22 1444532.370000NOT PROVIDED 4866973.96 
20565473.010000O0WNER 1001567.36 2408286.920000PHYSICIAN 3735124.94 
3594320.240000PRESIDENT 1878509.95 4720923.760000PROFESSOR 2165071.08 
296702.730000REAL ESTATE 528902.09 1625902.250000RETIRED 25305116.38 
23561244.489999SELF-EMPLOYED 672393.40 1640252.540000 


这 些 数据 做 成 柱状 图 看 起 来 会 更 加 清楚 (barh' 表 示 水 平 柱状 图 ， 如 图 9-2 所 示 ) 


In [38]: over_2mm.plot(kind='barh') 
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图 9-2 : 对 各 党 派 总 出 资 额 最 高 的 职业 


人 ee 出 资 额 最 高 的 职业 和 企业 。 为 此 ， 我 们 先 对 候选 
人 进行 分 组 ， 然 后 使 用 本 章 前 面 介绍 的 那 种 求 取 最 大 值 的 方法 : 


def get top_amounts(group, key, n=5): totals = group.groupby(key) 
[contb_receipt amt].sum()# 根据 key 对 totals 进 行 降序 排列 return 
totals.order(ascending=False)[n:] 


然后 根据 职业 和 履 主 进行 聚合 : 


In [40]: grouped = fec_mrbo.groupby('cand_ nm')In [41]: grouped.apply(get_ top_amounts， 
'contbr_occupation', n=7)Out[41]:cand_nm contbr_occupationObama, Barack RETIRED 
25305116.38 ATTORNEY 11141982.97 INFORMATION REQUESTED 4866973.96 
HOMEMAKER 4248875.80 PHYSICIAN 3735124.94 LAWYER 3160478.87 CONSULTANT 
2459912.71Romney, Mitt RETIRED 11508473.59 INFORMATION REQUESTED PER BEST 
EFFORTS 11396894.84 HOMEMAKER 8147446.22 ATTORNEY 5364718.82 PRESIDENT 
2491244.89 EXECUTIVE 2300947.03 C.E.O. 1968386.11Name: contb_receipt amtln [42]: 
grouped.apply(get top_ amounts, 'contbr_employer', n=10)Out[42]:cand_nm 
contbr_employerObama, Barack RETIRED 22694358.85 SELF-EMPLOYED 17080985.96 
NOT EMPLOYED 8586308.70 INFORMATION REQUESTED 5053480.37 HOMEMAKER 
2605408.54 SELF 1076531.20 SELF EMPLOYED 469290.00 STUDENT 318831.45 
VOLUNTEER 257104.00 MICROSOFT 215585.36Romney, Mitt INFORMATION 
REQUESTED PER BEST EFFORTS 12059527.24 RETIRED 11506225.71 HOMEMAKER 
8147196.22 SELF-EMPLOYED 7409860.98 STUDENT 496490.94 CREDIT SUISSE 
281150.00 MORGAN STANLEY 267266.00 GOLDMAN SACH & CO. 238250.00 
BARCLAYS CAPITAL 162750.00 H.I.G. CAPITAL 139500.00Name: contb_receipt_amt 


对 出 资 额 分 组 


还 可 以 对 该 数据 做 另 一 种 非常 实用 的 分 析 : 利用 cut 画 数 根 据 出 资 额 的 大 小 将 数据 离散 化 到 多 
个 面 元 中 : 


In [43]: bins = np.array([0, 1, 10, 100, 1000, 10000, 100000, 1000000, 10000000])In [44]: 
labels = pd.cut(fec_ mrbo.contb_receipt_ amt, bins)In [45]: labelsOut[45]:Categorical: 
contb_receipt amtarray([(10, 100], (100, 1000], (100, 1000], ..., (1, 10], (10, 100], (100， 
1000]], dtype=object)Levels (8): Index([(0, 1], (1, 10], (10, 100], (100, 1000], (1000, 
10000], (10000, 100000], (100000, 1000000], (1000000, 10000000]], dtype=object) 


然后 根据 候选 人 姓名 以 及 面 元 标签 对 数据 进行 分 组 : 


In [46]: grouped = fec_mrbo.groupby([cand_nm', labels])In [47]: 
grouped.size().unstack(0)Out[47]:cand_nm Obama, Barack Romney， 
Mittcontb_receipt_amt(0, 1] 493 77(1, 10] 40070 3681(10, 100] 372280 31853(100, 1000] 
153991 43357(1000, 10000] 22284 26186(10000, 100000] 2 1(100000, 1000000] 3 
NaN(1000000, 10000000] 4 NaN 


从 这 个 数据 中 可 以 看 出 ， 在 小 额 疯 助 方 面 ，Obama 获 得 的 数量 比 Romney 多 得 多 。 你 还 可 以 
对 出 资 额 求 和 并 在 面 元 内 规格 化 ， 以 便 图 形 化 显示 两 位 候选 人 各 种 赞助 额度 的 比例 : 


In [48]: bucket sums = grouped.contb_receipt amt.sum().unstack(0)In [49]: 

bucket sumsOut[49]:cand_nm Obama, Barack Romney, Mittcontb_receipt_amt(0, 1] 318.24 
77.00(1, 10] 337267.62 29819.66(10, 100] 20288981.41 1987783.76(100, 1000] 
54798531.46 22363381.69(1000, 10000] 51753705.67 63942145.42(10000, 100000] 
59100.00 12700.00(100000, 1000000] 1490683.08 NaN(1000000, 10000000] 7148839.76 
NaNln [50]: normed_sums = bucket sums.div(bucket sums.sum(axis=1), axis=0)In [51]: 
normed_sumsOut[51]:cand_nm Obama, Barack Romney, Mittcontb_receipt amt(0, 1] 
0.805182 0.194818(1, 10] 0.918767 0.081233(10, 100] 0.910769 0.089231(100, 1000] 
0.710176 0.289824(1000, 10000] 0.447326 0.552674(10000, 100000] 0.823120 
0.176880(100000, 1000000] 1.000000 NaN(1000000, 10000000] 1.000000 NaNln [52]: 
normed_ sums[:-2].plot(kind='barh', stacked=True) 


我 排除 了 两 个 最 大 的 面 元 ， 因 为 这 些 不 是 由 个 人 捐赠 的 。 最 终 的 结果 如 图 9-3 所 示 。 
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图 9-3 : 两 位 候选 人 收 到 的 各 种 捐赠 额度 的 总 额 比 例 


当然 ， 还 可 以 对 该 分 析 过 程 做 许多 的 提炼 和 改进 。 比 如 说 ， 可 以 根据 赞助 人 的 姓名 和 邮编 对 
数据 进行 聚合 ， 以 便 找 出 哪些 人 进行 了 多 次 小 额 捐款 ， 哪 些 人 又 进行 了 一 次 或 多 次 大 额 捐 
款 。 我 强烈 建议 你 下 载 这 些 数据 并 自己 摸索 一 下 。 


根据 州 统计 赞助 信息 
首先 自然 是 根据 候选 人 和 州 对 数据 进行 聚合 


In [53]: grouped = fec_mrbo.groupby(['cand_nm,', "contbr_st])In [54]: totals = 
grouped.contb_receipt amt.sum().unstack(0).fllna(O)ln [55]: totals = totals[totals.sum(1) > 
100000]In [56]: totals[:10]Out[56]:cand_nm Obama, Barack Romney, Mittcontbr_stAK 
281840.15 86204.24AL 543123.48 527303.51AR 359247.28 105556.00AZ 1506476.98 
1888436.23CA 23824984.24 11237636.60CO 2132429.49 1506714.12CT 2068291.26 
3499475.45DC 4373538.80 1025137.50DE 336669.14 82712.00FL 7318178.58 8338458.81 


如 果 对 各 行 除 以 总 装 助 额 ， 就 会 得 到 各 候选 人 在 各 州 的 总 欧 助 额 比 例 : 


In [57]: percent = totals.div(totals.sum(1), axis=0)In [58]: percent[:10]Out[58]:cand_nm 
Obama, Barack Romney, Mittcontbr_stAK 0.765778 0.234222AL 0.507390 0.492610AR 
0.772902 0.227098AZ 0.443745 0.556255CA 0.679498 0.320502CO 0.585970 0.414030CT 
0.371476 0.628524DC 0.810113 0.189887DE 0.802776 0.197224FL 0.467417 0.532583 


我 认为 在 地 图 上 看 这 些 数 据 会 比较 有 意思 (第 8 章 中 介绍 过 相关 技术 ) 。 在 找到 有 关 州 界 的 
shape file (http://nationalatlas.gov/atlasftp. tn chpbound) 并 稍微 学 习 一 下 
matplotlib 及 其 basemap 工 具 包 (Thomas Lecocq 的 博客 帮 了 我 的 大 忙 


~ 


注 2 


) 之 后 ， 我 终于 用 下 面 这 段 代码 画 出 了 刚才 算出 来 的 相对 百分比 : 


利用 Python 进行 数据 分 析 


译注 7 

from mpl toolkits.basemap import Basemap, cmimport numpy as npfrom matplotlib import 
rcParamsfrom matplotlib.collections import LineCollectionimport matplotlib.pyplot as pltfrom 
shapelib import ShapeFileimport dbflibobama = percent[Obama, Barack']fig = 
plt.figure(figsize=(12, 12))ax = fig.add_axes([0.1,0.1,0.8,0.8])llat = 21; urlat = 53; lllon = 
-118; urlon = -62m = Basemap(ax=ax, projection='stere', lon_0=(urlon + lllon) / 2, lat_0=(urlat 
+ lllat) / 2, llcrnrlat=lllat, urcrnrlat=urlat, llcrnrlon=lllon, urcrnrlon=urlon, 
resolution='|)m.drawcoastlines()m.drawcountries()shp = ShapeFile('"../states/statesp020')dbf 
= dbflib.open('../states/statesp020')for npoly in range(shp.infoO[0]): # 在 地 图 上 绘制 彩色 多 边 
形 shpsegs = [] shp_object = shp.read_object(npoly) verts = shp_object.vertices() rings = 
len(verts) for ring in range(rings): Ions, lats = zip(verts/ring)) x, y = m(lons, lats) 
shpsegs.append(zip(x,y)) if ring == 0: shapedict = dbf.read_record(npoly) name = 
shapedict[/' STATE!' lines = LineCollection(shpsegs,antialiaseds=(1,)) # state_to_code 字 上 典 , 
例如 ALASKA' -> AK' omitted try: per = obamalstate_to_codef/name.upper()]] except 
KeyError: continue lines.set_facecolors('k') lines.set_alpha(0.75 per)# 把 “百分比 " 变 小 一 点 
lines.set _ edgecolors(k') lines.set_linewidth(0.3)plt.show!() 


最 终结 果 如 图 9-4 所 示 。 

















图 9-4 : 汇集 了 所 有 赞助 统计 信息 的 美国 地 图 (颜色 越 深 表示 越 支持 民主 党 ) 
注 1 


: 为 了 简单 起 见 ， 这 里 假设 Gary Johnson 是 一 名 共和 党 员 ， 虽 然 他 后 来 成 为 自由 党 的 候选 
人 。 


注 2 
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: http://www.geophysique.be/2011/01/27/matplotlib-basemap-tutorial-07-shapefiles- 
unleached/。 
译注 7 


眉 愧 ， 折 腾 了 整 两 天 ， 慢 是 没 做 出 来 。 太 郁 头 了 ， 照 着 输入 都 不 行 。 在 网 上 找 了 一 个 比较 
ee we 不 过 由 于 时 间 太 紧 就 没完 成 ， 希 望 读者 在 党 试 成 功 之 后 一 定 在 网 上 发 布 一 下 ， 
以 绘 更 多 读者 。 


第 10 章 ”时间 序列 


不 管 在 哪个 领域 中 (如 金融 学 、 经 济 学 、 生 态 学 、 神 经 科学 、 物 理学 等 ) ， 时 间 序 列 (time 
series) 数据 都 是 一 种 重要 的 结构 化 数据 形式 。 在 多 个 时 间 点 观察 或 测量 到 的 任何 事物 可 以 形 
成 一 段 时 间 序 列 。 很 多 时 间 序 列 是 固定 频率 的 ， 也 就 是 说 ， 数 据点 是 根据 某 种 规律 定期 出 现 
的 (比如 每 15 秒 、 每 5 分 钟 、 每 月 出 现 一 次 ) 。 时 间 序列 也 可 以 是 不 定期 的 。 时 间 序 列 数据 的 
意义 取决 于 具体 的 应 用 场景 ， 主 要 有 以 下 几 种 : 


时间 惟 (timestamp) ， 特 定 的 时 刻 。 
:固定 时 期 (period) ， 如 2007 年 1 月 或 2010 年 全 年 。 


-时间 间隔 (interval) ， 由 起 始 和 结束 时 间 惟 表示 。 时 期 (period) 可 以 被 看 做 间隔 
(interval) 的 特例 。 


:实验 或 过 程 时 间 ， 每 个 时 间 点 都 是 相对 于 特定 起 始 时 间 的 一 个 度量 。 例 如 ， 从 放 入 烤箱 时 
起 ， 每 秒 钟 饼干 的 直径 。 


本 章 主要 讲解 前 3 种 时 间 序 列 。 a 其 索引 可 能 是 一 个 整 
数 或 浮 点 数 (表示 从 实验 开始 算 起 已 经 过 去 的 时 间 ) 。 最 简单 也 最 常见 的 时 间 序 列 都 是 用 时 
间 惟 进行 索引 的 。 


pandas 提 供 了 一 组 标准 的 时 间 序 列 处 理工 具 和 数据 算法 。 因 此 ， 你 可 以 高 效 处 理 非常 大 的 时 
间 序 列 ， 轻 松 地 进行 切片 / 切 块 、 聚 合 、 对 定期 /不 定期 的 时 间 序 列 进行 重 采样 等 。 可 能 你 已 经 
猿 到 了 ， 这 些 工具 中 大 部 分 都 对 金融 和 经 济 数据 尤为 有 用 ， 但 你 当然 也 可 以 用 它们 来 分 析 服 
务 器 日 志 数 据 。 


注意 : 本 章 中 部 分 功能 和 代码 (比如 处 理 时 期 的 那些 ) 用 到 了 已 经 停止 更 新 的 


scikits.timeseries 库 。 译 注 1 

译注 1 

: 没 找到 2.7 的 ， 但 是 网 上 好 像 有 人 用 了 。 
日 期 和 时 间 数 据 类 型 及 工具 


Python 标准 库 包 含 用 于 日 期 (date) 和 时 间 (time) 数据 的 数据 类 型 ， 而 且 还 有 日 历 方面 的 
功能 。 我 们 主要 会 用 到 datetime、time 以 及 calendar 模 块 。datetime.datetime (也 可 以 简写 为 
datetime) 是 用 得 最 多 的 数据 类 型 : 


In [317]: from datetime import datetimeln [318]: now = datetime.now()In [319]: nowOut[319]: 
datetime.datetime(2012, 8, 4, 17, 9, 21, 832092)In [320]: now.year, now.month, 
now.dayOut[320]: (2012, 8, 4) 


datetime 以 毫秒 形式 存储 日 期 和 时 间 。datetime.timedelta 表 示 两 个 datetime 对 象 之 间 的 时 间 
差 : 


In [321]: delta = datetime(2011, 1, 7) - datetime(2008, 6, 24, 8, 15)In [322]: deltaOut[322]: 
datetime.timedelta(926, 56700)In [323]: delta.daysOut[323]: 926In [324]: 
delta.secondsOut[324]: 56700 


可 以 给 datetime 对 象 加 上 (或 减 去 ) 一 个 或 多 个 timedelta， 这 样 会 产生 一 个 新 对 象 : 


In [325]: from datetime import timedeltaln [326]: start = datetime(2011, 1, 7)In [327]: start + 
timedelta(12)Out[327]: datetime.datetime(2011, 1, 19, 0, 0)In [328]: start - 2 * 
timedelta(12)Out[328]: datetime.datetime(2010, 12, 14, 0, 0) 


datetime 模 块 中 的 数据 类 型 参见 表 10-1。 虽然 本 章 主要 讲 的 是 pandas 数 据 类 型 和 高 级 时 间 序 
列 处 理 ， 但 你 肯定 会 在 Python 的 其 他 地 方 遇 到 有 关 datetime 的 数据 类 型 。 


表 10-1: datetime 模 块 中 的 数据 类 型 


类 型 说 明 

date 以 公历 形式 存储 日 历 日 期 (年 、 月 、 日 ) 

time 将 时 间 存 储 为 时 、 分 、 秒 、 毫 秒 

datetime 存储 日 期 和 时 间 

timedelta 表示 两 个 datetime 值 之 间 的 差 (日 、 秒 、 毫 秒 ) 


字符 串 和 datetime 的 相互 转换 


利用 str 或 strftime 方 法 〈 传 人 一 个 格式 化 字符 串 ) ，datetime 对 象 和 pandas 的 Timestamp 对 象 
( 稍 后 就 会 介绍 ) 可 以 被 格式 化 为 字符 串 : 


In [329]: stamp = datetime(2011, 1, 3)In [330]: str(stamp) In [331]: stamp.strftime('%Y-%m- 
%d')Out[330]: '2011-01-03 00:00:00' Out[331]: '2011-01-03" 


表 10-2 列 出 了 全 部 的 格式 化 编码 。datetime.strptime 也 可 以 用 这 些 格式 化 编码 和 将 字 符 串 转换 为 
日 期 : 


In [332]: value = '2011-01-03'In [333]: datetime.strptime(value，%Y-%m-%d )Out[333]: 
datetime.datetime(2011, 1, 3, 0, 0)In [334]: datestrs = [7/6/2011", '8/6/2011']In [335]: 
[datetime.strptime(x, '"%m/%d/%Y') for x in datestrs]Out[335]: [datetime.datetime(2011, 7, 6, 
0, 0), datetime.datetime(2011, 8, 6, 0, 0)] 


datetime.strptime 是 通过 已 知 格式 进行 日 期 解析 的 最 佳 方式 。 但 是 每 次 都 要 编写 格式 定义 是 很 
麻烦 的 事情 ， 尤 其 是 对 于 一 些 常见 的 日 期 格式 。 这 种 情况 下 ， 你 可 以 用 dateutil 这 个 第 三 方 包 
中 的 parserparse 方 法 : 


In [336]: from dateutil.parser import parseln [337]: parse(2011-01-03')Out[337]: 
datetime.datetime(2011, 1, 3, 0, 0) 


dateutil 可 以 解析 几乎 所 有 人 类 能 够 理解 的 日 期 表示 形式 
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In [338]: parse(Jan 31, 1997 10:45 PM')Out[338]: datetime.datetime(1997, 1, 31, 22, 45) 
在 国 通用 的 格式 中 ， 日 通常 出 现在 月 的 前 面 ， 传 入 dayfirst=True 即 可 解决 这 个 问题 : 
In [339]: parse('6/12/2011'", dayfirst=True)Out[339]: datetime.datetime(2011, 12, 6, 0, 0) 


pandas 通 常 是 用 于 处理 成 组 日 期 的 ， 不 管 这 些 日 期 是 DataFrame 的 轴 索 引 还 是 列 。 
to_datetime 方 法 可 以 解析 多 种 不 同 的 日 期 表示 形式 。 对 标准 日 期 格式 〈 如 ISO8601) 的 解析 
非常 快 。 

In [340]: datestrsOut[340]: [7/6/2011", '8/6/2011"]In [341]: pd.to_datetime(datestrs)Out[341]: 
[2011-07-06 00:00:00, 2011-08-06 00:00:00]Length: 2, Freq: None, Timezone: None 


它 还 可 以 处 理 缺失 值 (None、 空 字符 串 等 ) 
In [342]: idx = pd.to_datetime(datestrs + [None])ln [343]: idxOut[343]:[2011-07-06 00:00:00, 


..., NaTlLength: 3, Freq: None, Timezone: Noneln [344]: idx[2]Out[344]: NaTln [345]: 
pd.isnull(idx)Out[345]: array([False, False, True], dtype=bool) 


NaT (Not a Time) 是 pandas 中 时 间 惟 数据 的 NA 值 。 


警告 : dateutil.parser 是 一 个 实用 但 不 完美 的 工具 。 上 比如 说 ， 它 会 把 一 些 原本 不 是 日 期 的 字符 
串 认 作 是 日 期 比如 "42" 会 被 解析 为 2042 年 的 今天 ) 。 

表 10-2: datetime 格 式 定义 (兼容 I SO C89) 

代码 “说明 

%Y 4 位 数 的 和 

%y 2 位 数 的 生 

%m 2 位 数 的 月 [01, 12] 

%d 2 位 数 的 日 [01, 31] 
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表 10-2: datetime 格 式 定义 (兼容 I SO C89) 【 续 ) 


代码 ”说 阴 
%H 时 (24 小 时 制 ) [00, 23] 
%l 时 (12 小 时 制 ) [01, 12] 


%M 2 位 数 的 分 [00, 59] 

%5 秒 [00, 61] ( 秒 60 和 61 用 于 闽 秒 ) 

ow 用 整数 表示 的 星期 几 [0 (星期 天 )，6] 

%U 每 年 的 第 几 周 [00, 53]。 星 期 天 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 天 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 

%W 每 年 的 第 几 周 [00, 53]。 星 期 一 被 认为 是 每 周 的 第 一 天 ， 每 年 第 一 个 星期 一 之 前 
的 那 几 天 被 认为 是 “第 0 周 ” 

96z 以 +HHMM 或 一 HHMM 表 示 的 UTC 时 区 偏 移 量 ， 如 果 时 区 为 naive 三， 则 返回 空 
字符 串 

%F %Y-%m-%d 简 写 形式 ， 例 如 2012-4-18 

%D ”%m/96d/9%y 简 写 形式 ， 例 如 04/18/12 
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译注 3 : 更 准确 一 点 地 讲 ， 应 该 是 时 间 对 象 ， 而 不 是 时 区 。 时 间 对 象 有 naive 和 aware 之 分 ， 简 
单 地 说 ， 就 是 有 没有 人 为 调整 (比如 夏 使 时 之 类 的 东西 ) 。 


译注 4 : 应 该 是 2012-04-18 才 对 。 


datetime 对 象 还 有 一 些 特定 于 当前 环境 (位 于 不 同 国家 或 使 用 不 同 语言 的 系统 ) 的 格式 化 选 
项 。 例 如 ， 德 语 或 法 语系 统 所 用 的 月 份 简 写 就 与 英语 系统 所 用 的 不 同 。 


表 10-3: 特定 于 当前 环境 的 日 期 格式 

代码 ”说明 

%a 星期 几 的 简写 

%A ”星期 几 的 全 称 

%b 月 份 的 简写 

%B 月 份 的 全 称 

%c ”完整 的 日 期 和 时 间 ， 例 如 “Tue 01 May 2012 04:20:57 PM” 
%p ”不 同 环境 中 的 AM 或 PM 


%x ”适合 于 当前 环境 的 日 期 格式 , 例如， 在 美国 ，“May 1, 2012” 会 产生 
“05/01/2012” 


%X 适合 于 当前 环境 的 时 间 格 式 ， 例 如 “04:24:12 PM” 





译注 2 
: 很 遗憾 ， 中 文 不 行 。 
时 间 序 列 基 础 


pandas 最 基本 的 时 间 序 列 类 型 就 是 以 时 间 戳 〈 通 常 以 Python 字符 串 或 datatime 对 象 表示 ) 为 
索引 的 Series : 
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In [346]: from datetime import datetimeln [347]: dates = [datetime(2011, 1, 2), datetime(2011, 
1, 5), datetime(2011, 1, 7), ...: datetime(2011, 1, 8), datetime(2011, 1, 10), datetime(2011, 1, 
12)]In [348]: ts = Series(np.random.randn(6), index=dates)In [349]: tsOut[349]:2011-01-02 
0.6900022011-01-05 1.0015432011-01-07 -0.5030872011-01-08 -0.6222742011-01-10 
-0.9211692011-01-12 -0.726213 


这 些 datetime 对 象 实际 上 是 被 放 在 一 个 Datetimelndex 中 的 。 现 在 ， 变 量 ts 就 成 为 一 个 
TimeSeries 了 : 


In [350]: type(ts)Out[350]: pandas.core.series.TimeSeriesln [351]: ts.indexOut[351]:[2011- 
01-02 00:00:00, …, 2011-01-12 00:00:00]Length: 6, Freq: None, Timezone: None 


注意 : 没 必要 显 式 使 用 TimeSeries 的 构造 画 数 。 当 创建 一 个 带 有 Datetimelndex 的 Series 时 ， 
pandas 就 会 知道 该 对 象 是 一 个 时 间 序列 。 


跟 其 他 Series 一 样 ， 不 同 素 引 的 时 间 序 列 之 间 的 算术 运算 会 自动 按 日 期 对 齐 : 


In [352]: ts + ts[::2]Out[352]:2011-01-02 1.3800042011-01-05 NaN2011-01-07 
-1.0061752011-01-08 NaN2011-01-10 -1.8423372011-01-12 NaN 


pandas 用 NumPy 的 datetime64 数 据 类 型 以 纳 秒 形式 存储 时 间 戳 : 
In [353]: ts.index.dtypeOut[353]: dtype('datetime64[ns]') 
Datetimelndex 中 的 各 个 标量 值 是 pandas 的 Timestamp 对 象 : 

In [354]: stamp = ts.index[0]In [355]: stampOut[355]: 


只 要 有 需要 ，TimeStamp 可 以 随时 自动 转换 为 datetime 对 象 ” 此 外 ， 它 还 可 以 存储 频率 信息 
(如 果 有 的 话 ) ， 且 知道 如 何 执行 时 区 转换 以 及 其 他 操作 。 稍 后 将 对 此 进行 详细 讲解 。 


索引 、 选 取 、 子 集 构 造 

由 于 TimeSeries 是 Series 的 一 个 子 类 ， 所 以 在 素 引 以 及 数据 选取 方面 它们 的 行为 是 一 样 的 : 
In [356]: stamp = ts.index[2]In [357]: ts[stamp]Out[357]: -0.50308739136034464 

还 有 一 种 更 为 方便 的 用 法 : 传人 一 个 可 以 被 解释 为 日 期 的 字符 串 。 


In [358]: ts['1/10/2011]Out[358]: -0.92116860801301081In [359]: ts['20110110"]Out[359]: 
-0.92116860801301081 


对 于 较 长 的 时 间 序 列 ， 只 需 传 入 “年 "或 “年 月 " 即 可 轻松 选取 数据 的 切片 : 


In [360]: longer ts = Series(np.random.randn(1000), ...: index=pd.date_range('1/1/2000,", 
periods=1000))In [361]: longer_tsOut[361]:2000-01-01 0.2228962000-01-02 0.0513162000- 
01-03 -1.1577192000-01-04 0.816707...2002-09-23 -0.3958132002-09-24 -0.1807372002- 
09-25 1.3375082002-09-26 -0.416584Freq: D, Length: 1000In [362]: 


longer_ ts[2001']Out[362]:2001-01-01 -1.4995032001-01-02 0.5451542001-01-03 
0.4008232001-01-04 -1.946230...2001-12-28 -1.5681392001-12-29 -0.9008872001-12-30 
0.6523462001-12-31 0.871600Freq: D, Length: 365In [363]: Ionger_ts['2001- 
05']Out[363]:2001-05-01 1.6620142001-05-02 -1.1892032001-05-03 0.0935972001-05-04 
-0.539164...2001-05-28 -0.6830662001-05-29 -0.9503132001-05-30 0.4007102001-05-31 
-0.126072Freq: D, Length: 31 


通过 日 期 进行 切片 的 方式 只 对 规则 Series 有 效 : 


In [364]: ts[datetime(2011, 1, 7):]Out[364]:2011-01-07 -0.5030872011-01-08 -0.6222742011- 
01-10 -0.9211692011-01-12 -0.726213 


由 于 大 部 分 时 间 序 列 数据 都 是 按照 时 间 先 后 排序 的 ， 因 此 你 也 可 以 用 不 存在 于 该 时 间 序列 中 
的 时 间 惟 对 其 进行 切片 〈 即 范围 查询 ) 


In [365]: tsOut[365]:2011-01-02 0.6900022011-01-05 1.0015432011-01-07 -0.5030872011- 
01-08 -0.6222742011-01-10 -0.9211692011-01-12 -0.726213In [366]: 

ts[ 1/6/2011:1/11/2011]Out[366]:2011-01-07 -0.5030872011-01-08 -0.6222742011-01-10 
-0.921169 


跟 之 前 一 样 ， 这 里 可 以 传 入 字符 串 日 期 、datetime 或 Timestamp。 注 意 ， 这 样 切片 所 产生 的 是 
源 时 间 序 列 的 视图 ， 跟 NumPy 数 组 的 切片 运算 是 一 样 的 。 此 外 ， 还 有 一 个 等 价 的 实例 方法 也 
可 以 截取 两 个 日 期 之 间 TimeSeries : 


In [367]: ts.truncate(after="1/9/2011')Out[367]:2011-01-02 0.6900022011-01-05 
1.0015432011-01-07 -0.5030872011-01-08 -0.622274 


上 面 这 些 操 作对 DataFrame 也 有 效 。 例 如 ， 对 DataFrame 的 行进 行 索 引 : 


In [368]: dates = pd.date_range('1/1/2000", periods=100, freq="W-WED')In [369]: long_df = 
DataFrame(np.random.randn(100, 4), .… index=dates, .… columns=['Colorado', 'Texas,, 
'New York', 'Ohio'])In [370]: long_df.ix['5-2001"]Out[370]: Colorado Texas New York 
Ohio2001-05-02 0.943479 -0.349366 0.530412 -0.5087242001-05-09 0.230643 -0.065569 
-0.248717 -0.5871362001-05-16 -1.022324 1.060661 0.954768 -0.5118242001-05-23 
-1.387680 0.767902 -1.164490 1.5270702001-05-30 0.287542 0.715359 -0.345805 
0.470886 


带 有 重复 索引 的 时 间 序列 


在 某 些 应 用 场景 中 ， 可 能 会 存在 多 个 观测 数据 落 在 同一 个 时 间 点 上 的 情况 。 下 面 就 是 一 个 例 
子 : 


In [371]: dates = pd.Datetimelndex([1/1/2000，1/2/2000，'1/2/2000，'1/2/2000 ...: 
'1/3/2000'])In [372]: dup ts = Series(np.arange(5), index=dates)jln [373]: 
dup_tsOut[373]:2000-01-01 02000-01-02 12000-01-02 22000-01-02 32000-01-03 4 


通过 检查 索引 的 is_unique 属 性 ， 我 们 就 可 以 知道 它 是 不 是 唯一 的 : 
In [374]: dup_ts.index.is_unique Out[374]: False 


对 这 个 时 间 序 列 进 行 索引 ， 要 么 产生 标量 值 ， 要 么 产生 切片 ， 具 体 要 看 所 选 的 时 间 点 是 否 
复 : 


In [375]: dup_ts['1/3/2000]# 不 重复 Out[375]: 4In [376]: dup_ts['1/2/2000'] # 重复 
Out[376]:2000-01-02 12000-01-02 22000-01-02 3 


假设 你 想 要 对 具有 非 唯一 时 间 惟 的 数据 进行 聚合 。 一 个 办 法 是 使 用 groupby， 并 传人 
level=0 (索引 的 唯一 一 层 | ) 


In [377]: grouped = dup_ts.groupby(level=0)ln [378]: grouped.mean() In [379]: 
grouped.count()Out[378]: Out[379]:2000-01-01 0 2000-01-01 12000-01-02 2 2000-01-02 
32000-01-03 4 2000-01-03 1 


日 期 的 范围 、 频 率 以 及 移动 


pandas 中 的 时 间 序 列 一 般 被 认为 是 不 规则 的 ， 也 就 是 说 ， 它 们 没有 固定 的 频率 。 对 于 大 部 分 
应 用 程序 而 言 ， 这 是 无 所 谓 的 。 但 是 ， 它 常常 需要 以 某 种 相对 固定 的 频率 进行 析 ， 比 如 每 
日 、 每 月 、 每 15 分 钟 等 〈 这 样 自 然 会 在 时 间 序 列 中 引入 缺失 值 ) 。 幸 运 的 是 ，pandas 有 一 整 
套 标准 时 间 序 列 频率 以 及 用 于 重 采 样 、 频 率 推 断 、 生 成 固定 频率 日 期 范围 的 工具 。 例 如 ， 我 
们 可 以 将 之 前 那个 时 间 序 列 转换 为 一 个 具有 固定 频率 (每 日 ) 的 时 间 序 列 ， 只 需 调 用 
resample 即 可 : 


In [380]: ts In [381]: ts.resample('D')Out[380]: Out[381]:2011-01-02 0.690002 2011-01-02 
0.6900022011-01-05 1.001543 2011-01-03 NaN2011-01-07 -0.503087 2011-01-04 
NaN2011-01-08 -0.622274 2011-01-05 1.0015432011-01-10 -0.921169 2011-01-06 
NaN2011-01-12 -0.726213 2011-01-07 -0.503087 2011-01-08 -0.622274 2011-01-09 NaN 
2011-01-10 -0.921169 2011-01-11 NaN 2011-01-12 -0.726213 Freq: D 


频率 的 转换 (或 重 采样 ) 是 一 个 比较 大 的 主题 ， 稍 后 将 专门 用 一 节 来 进行 讨论 。 这 里 我 将 告 
诉 你 如 何 使 用 基本 的 频率 。 


生成 日 期 范围 


虽然 我 之 前 用 的 时 候 没 有 明说 ， 但 你 可 能 已 经 猜 到 pandas.date_range 可 用 于 生成 指定 长 度 的 
Datetimelndex : 


In [382]: index = pd.date_range(4/1/2012", '6/1/2012')In [383]: indexOut[383]:[2012-04-01 
00:00:00, ..., 2012-06-01 00:00:00]Length: 62, Freq: D, Timezone: None 


默认 情况 下 ，date_range 会 产生 按 天 计算 的 时 间 点 。 如 果 只 传 入 起 始 或 结束 日 期 ， 那 就 还 得 
传人 一 个 表示 一 段 时 间 的 数字 : 


In [384]: pd.date_range(start='"4/1/2012'", periods=20)Out[384]:[2012-04-01 00:00:00, ...， 
2012-04-20 00:00:00]Length: 20, Freq: D, Timezone: Noneln [385]: 
pd.date_range(end='6/1/2012', periods=20)Out[385]:[2012-05-13 00:00:00, ..., 2012-06-01 
00:00:00]Length: 20, Freq: D, Timezone: None 


起 始 和 结束 日 期 定义 了 日 期 索引 的 严格 边界 。 例 如 ， 如 果 你 想 要 生成 一 个 由 每 月 最 后 一 个 工 
作 日 组 成 的 日 期 索引 ， 可 以 传 入 "BM" 频 率 (表示 business end of month) ， 这 样 就 只 会 包含 
时 间 间 隔 内 (或 刚好 在 边界 上 的 ) 符合 频率 要 求 的 日 期 : 


In [386]: pd.date_range('1/1/2000", '12/1/2000", freq='BM')Out[386]:[2000-01-31 00:00:00, ...， 
2000-11-30 00:00:00]Length: 11, Freq: BM, Timezone: None 


date_range 默 认 会 保留 起 始 和 结束 时 间 戳 的 时 间 信 息 (如 果 有 的 话 ) 


In [387]: pd.date_range(5/2/2012 12:56:31'", periods=5)Out[387]:[2012-05-02 12:56:31, ..., 
2012-05-06 12:56:31]Length: 5, Freq: D, Timezone: None 


有 时 ， 虽 然 起 始 和 结束 日 期 带 有 时 间 信 息 ， 但 你 希望 产生 一 组 被 规范 化 (normalize) 到 午夜 
的 时 间 稚 。normalize 选 项 即 可 实现 该 功能 : 


In [388]: pd.date_range('5/2/2012 12:56:31'", periods=5, normalize=True)Out[388]:[2012-05- 
02 00:00:00, ..., 2012-05-06 00:00:00]Length: 5, Freq: D, Timezone: None 


频率 和 日 期 偏 移 量 


pandas 中 的 频率 是 由 一 个 基础 频率 (base frequency) 和 一 个 乘 数组 成 的 。 基 础 频率 通常 以 
一 个 字符 串 别 名 表示 ， 比 如 "M" 表 示 每 月 ，"H" 表 示 每 小 时 。 对 于 每 个 基础 频率 ， 都 有 一 个 被 
称 为 日 期 偏 移 量 (date offset) 的 对 象 与 之 对 应。 例如 ， 按 小 时 计算 的 频率 可 以 用 Hour 类 表 
示 : 


In [389]: from pandas.tseries.offsets import Hour, Minuteln [390]: hour = Hour()In [391]: 
hourOut[391]: <1 Hour=""> 


传人 一 个 整数 即 可 定义 偏 移 量 的 倍数 : 
In [392]: four_hours = Hour(4)In [393]: four_hoursOut[393]: <4 Hours=""> 


一 般 来 说 ， 无 需 显 式 创 建 这 样 的 对 象 ， 只 需 使 用 诸如 "H" 或 "4H" 这 样 的 字符 串 别名 即 可 。 在 基 
础 频率 前 面 放 上 一 个 整数 即 可 创建 倍数 : 


In [394]: pd.date_range('1/1/2000", '1/3/2000 23:59", freq='4h')Out[394]:[2000-01-01 
00:00:00, ..., 2000-01-03 20:00:00]Length: 18, Freq: 4H, Timezone: None 


大 部 分 偏 移 量 对 象 都 可 通过 加 法 进行 连接 : 


In [395]: Hour(2) + Minute(30)Out[395]: <150 Minutes=""> 


同 理 ， 你 也 可 以 传人 频率 字符 串 (如 "2h30min") ， 这 种 字符 串 可 以 被 高 效 地 解析 为 等 效 的 表 
达 式 : 


In [396]: pd.date_range(1/1/2000, periods=10, freq='1h30min')Out[396]:[2000-01-01 
00:00:00, ..., 2000-01-01 13:30:00]Length: 10, Freq: 90T, Timezone: None 


有 些 频 率 所 描述 的 时 间 点 并 不 是 均匀 分 隔 的 。 例 如 ，"M"” (日 历 月 未 ) 和 "BM" (每 月 最 后 一 个 
工作 日 ) 就 取决 于 每 月 的 天 数 ， 对 于 后 者 ， 还 要 考虑 月 末 是 不 是 周末 。 由 于 没有 更 好 的 术 
语 ， 我 业 这 些 称 为 锚 点 偏 移 量 (anchored offset) 。 


表 10-4 列 出 了 pandas 中 的 频率 代码 和 日 期 仿 移 量 类 。 


注意 : 用 户 可 以 根据 实际 需求 自 定义 一 些 频 率 类 以 便 提供 pandas 所 没有 的 日 期 逻辑 ， 但 具体 
的 细节 超出 了 本 书 的 范围 。 


表 10-4: 时 间 序 列 的 基础 频率 


别名 偏 移 量 类 型 说 明 

D Day 每 日 历 日 

B BusinessDay 每 工作 日 

H Hour 每 小 时 

T 或 min Minute 每 分 

5 Second 每 秒 

1 或 ms Milli 每 毫秒 ( 即 每 千 分 之 一 秒 ) 

U Micro 每 微 秒 ( 即 每 百 万 分 之 一 秒 ) 

M MonthEnd 每 月 最 后 一 个 日 历 日 

BM BusinessMonthEnd ”每 月 最 后 一 个 工作 日 

MS MonthBegin 每 月 第 一 个 日 历 日 

BMS BusinessMonthBegin 每 月 第 一 个 工作 日 

W-MON、W-TUE… Week 从 指定 的 星期 几 (MON、TUE、 
WED、THU、FRI、SAT、SUN) 开始 
算 起 ， 每 周 

WOM-1MON、WOM-2MON… WeekOfMonth 产生 每 月 第 一 、 第 二 、 第 三 或 第 四 
周 的 星期 几 。 例 如 ，WOM-3FRI 表 
示 每 月 第 3 个 星期 五 

Q-JAN 、Q-FEB… QuarterEnd 对 于 以 指定 月 份 (JAN、FEB、 


MAR、APR、MAY、JUN、JUL、 
AUG、S5EP、OCT、NOV、DEC) 结束 
的 年 度 ， 每 季度 最 后 一 月 的 最 后 一 
个 日 历 日 


BQ-JAN、BQ-FEB… BusinessQuarterEnd “对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 最 后 一 个 工作 日 
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表 10-4: 时 间 序 列 的 基础 频率 ( 续 ) 


别名 偏 移 量 类 型 说 明 

QS-JAN、QS-FEB… QuarterBegin 对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 第 一 个 日 历 日 

BQS-JAN、BQS-FEB…. BusinessQuarterBegin 对 于 以 指定 月 份 结束 的 年 度 ， 每 季 
度 最 后 一 月 的 第 一 个 工作 日 

A-JAN、A-FEB… YearEnd 每 年 指定 月 份 (JAN、FEB、MAR、 


APR、MAY、JUN、JUL、AUG、SEP、 
OCT、NOV、DEC) 的 最 后 一 个 日 历 


日 
BA-JAN、BA-FEB… BusinessYearEnd 每 年 指定 月 份 的 最 后 一 个 工作 日 
AS-JAN、AS-FEB… YearBegin 每 年 指定 月 份 的 第 一 个 日 历 日 
BAS-JAN、BAS-FEB… BusinessYearBegin ”每 年 指定 月 份 的 第 一 个 工作 日 


WOM 日 期 

WOM (Week Of Month) 是 一 种 非常 实用 的 频率 类 ， 它 以 WOM 开 头 。 它 使 你 能 获得 诸如 "每 
月 第 3 个 星期 五 "之 类 的 日 期 : 

In [397]: rng = pd.date_range('1/1/2012", '9/1/2012'", freq=" WOM-3FRI")In [398]: 
list(rng)Out[398]:[, ,,,,,, ] 

美国 的 股票 期 权 交 易 人 会 意识 到 这 些 日 子 就 是 标准 的 月 度 到 期 日 。 

移动 (超前 和 滞后 ) 数据 


移动 (shifting) 指 的 是 治 着 时 间 轴 将 数据 前 移 或 后 移 。Series 和 DataFrame 都 有 一 个 shift 方 法 
用 于 执行 单纯 的 前 移 或 后 移 操 作 ， 保 持 索 引 不 变 : 


In [399]: ts = Series(np.random.randn(4), .… index=pd.date_range('1/1/2000", periods=4， 
freq="M'))In [400]: ts In [401]: ts.shift(2) In [402]: ts.shift(-2)Out[400]: Out[401]: 
Out[402]:2000-01-31 0.575283 2000-01-31 NaN 2000-01-31 1.8145822000-02-29 0.304205 
2000-02-29 NaN 2000-02-29 1.6348582000-03-31 1.814582 2000-03-31 0.575283 2000-03- 
31 NaN2000-04-30 1.634858 2000-04-30 0.304205 2000-04-30 NaNFreq: M Freq: M Fred: 
M 


shift 通 常用 于 计算 一 个 时 间 序 列 或 多 个 时 间 序 列 ( 如 DataFrame 的 列 ) 中 的 百分比 变化 。 可 以 
这 样 表达 


ts /ts.shift(1) - 1 


由 于 单纯 的 移 位 操作 不 会 修改 素 引 ， 所 以 部 分 数据 会 被 丢弃 。 因 此 ， 如 果 频 率 已 知 ， 则 可 以 
将 其 传 给 shift 以 便 实 现 对 时 间 惟 进行 位 移 而 不 是 对 数据 进行 简单 位 移 : 


In [403]: ts.shift(2, freq="M')Out[403]:2000-03-31 0.5752832000-04-30 0.3042052000-05-31 
1.8145822000-06-30 1.634858Freq: M 


这 里 还 可 以 使 用 其 他 频率 ， 于 是 你 就 能 非常 灵活 地 对 数据 进行 超前 和 灌 后 处 理 了 : 


In [404]: ts.shift(3, freq='D') In [405]: ts.shift(1, freq='3D')Out[404]: Out[405]:2000-02-03 
0.575283 2000-02-03 0.5752832000-03-03 0.304205 2000-03-03 0.3042052000-04-03 
1.814582 2000-04-03 1.8145822000-05-03 1.634858 2000-05-03 1.634858In [406]: 
ts.shift(1, freq='90T'")Out[406]:2000-01-31 01:30:00 0.5752832000-02-29 01:30:00 
0.3042052000-03-31 01:30:00 1.8145822000-04-30 01:30:00 1.634858 


通过 偏 移 量 对 日 期 进行 位 移 
pandas 的 日 期 偏 移 量 还 可 以 用 在 datetime 或 Tmestamp 对 象 上 : 


In [407]: from pandas .tseries.offsets import Day MonthEndln [408]: now = datetime(2011, 
11, 17)In [409]: now + 3 * Day()Out[409]: datetime.datetime(2011, 11, 20, 0, 0) 


如 果 加 的 是 锚 点 偏 移 量 (比如 MonthEnd) ， 第 一 次 增 量 会 将 原 日 期 向 前 滚动 到 符合 频率 规则 
的 下 一 个 日 期 译注 5 : 


In [410]: now + MonthEnd()Out[410]: datetime.datetime(2011, 11, 30, 0, 0)In [411]: now + 
MonthEnd(2)Out[411]: datetime.datetime(2011, 12, 31, 0, 0) 


通过 锚 点 偏 移 量 的 rollforward 和 rollback 方 法 ， 可 显 式 地 将 日 期 向 前 或 向 后 “滚动 ”: 


In [412]: offset = MonthEnd()In [413]: offset.rollforward(now)Out[413]: 
datetime.datetime(2011, 11, 30, 0, 0)In [414]: offset.rollback(now)Out[414]: 
datetime.datetime(2011, 10, 31, 0, 0) 


日 期 偏 移 量 还 有 一 个 巧妙 的 用 法 ， 即 结合 groupby 使 用 这 两 个 “滚动 "方法 : 


In [415]: ts = Series(np.random.randn(20), .… index=pd.date_range('1/15/2000", periods=20， 
fredq='4d ))In [416]: ts.groupby(offset.rollforward).mean()Out[416]:2000-01-31 
-0.4488742000-02-29 -0.6836632000-03-31 0.251920 


当然 ， 更 简单 、 更 快速 地 实现 该 功能 的 办 法 是 使 用 resample 〈 稍 后 将 对 此 进行 详细 介绍 ) 


In [417]: ts.resample('M', how='mean')Out[417]:2000-01-31 -0.4488742000-02-29 
-0.6836632000-03-31 0.251920Freq: M 


译注 5 
: 拿 本 例 来 说 ， 就 是 第 一 次 位 移 的 量 可 能 没有 一 个 月 那么 长 ， 就 在 当月 。 
时 区 处 理 


时 间 序 列 处 理工 作 中 最 让 人 不 歌 的 就 是 对 时 区 的 处 理 。 尤 其 是 夏 合 时 (DST) 转变 ， 这 是 一 
种 最 常见 的 麻烦 事 。 就 这 一 点 来 说 ， 许 多 人 都 选择 以 协调 世界 时 (UTC， 它 是 格林 尼 治 标准 
时 间 (Greenwich Mean Time) 的 接替 者 ， 目 前 已 经 是 国际 标准 了 ) 来 处 理 时 间 序 列 。 时 区 


是 以 UTC 含 移 量 的 形式 表示 的 。 例 如 ， 夏 邻 时 期间， 纽约 比 UTC 慢 4 小 时 ， 而 在 全 年 其 他 时 间 
则 比 UTC 慢 5 小 时 。 


在 Python 中 ， 时 区 信息 来 自 第 三 方 库 pytz， 它 使 Python 可 以 使 用 Olson 数 据 库 译注 6 (汇编 了 
世界 时 区 信息 ) 。 这 对 历史 数据 非常 重要 ， 这 是 因为 由 于 各 地 政府 的 各 种 突 发 奇想 ， 夏 使 时 
转变 日 期 (甚至 UTC 偏 移 量 ) 已 经 发 生 过 多 次 改变 了 。 就 拿 美 国 来 说 ，DST 转 变 时 间 自 1900 
年 以 来 就 改变 过 多 次 ! 


有 关 pytz 库 的 更 多 信息 ， 请 查阅 其 文档 。 就 本 书 而 言 ， 由 于 pandas 包 装 了 pytz 的 功能 ， 因 此 
你 可 以 不 用 记忆 其 API， 只 要 记得 时 区 的 名 称 即 可 。 时 区 名 可 以 在 文档 中 找到 ， 也 可 以 通过 交 
互 的 方式 查看 : 


In [418]: import pytzln [419]: pytz.common_timezones[-5:]Out[419]: [US/Eastern,, 
'US/Hawaii', 'US/Mountain', 'US/Pacific', 'UTC]] 


要 从 pytz 中 获取 时 区 对 象 ， 使 用 pytz.timezone 即 可 : 

In [420]: tz = pytz.timezone('US/Eastern')In [421]: tzOut[421]: 

pandas 中 的 方法 既 可 以 接受 时 区 名 也 可 以 接受 这 种 对 象 。 我 建议 只 用 时 区 名 。 

本 地 化 和 转换 

默认 情况 下 ，pandas 中 的 时 间 序 列 是 单纯 的 (naive) 时 区 。 看 看 下 面 这 个 时 间 序 列 : 


rng = pd.date_range('3/9/2012 9:30'", periods=6, freq='D')ts = 
Series(np.random.randn(len(rng)), index=rng) 


其 索引 的 纪 字 段 为 None : 
In [423]: print(ts.index.tz)None 
在 生成 日 期 范围 的 时 候 还 可 以 加 上 一 个 时 区 集 : 


In [424]: pd.date_range(3/9/2012 9:30, periods=10, freq='D", tz='"UTC')Out[424]:[2012-03-09 
09:30:00, ..., 2012-03-18 09:30:00]Length: 10, Freq: D, Timezone: UTC 


从 单纯 到 本 地 化 的 转换 是 通过 tz_localize 方 法 处 理 的 : 


In [425]: ts_utc = ts.tz localize(CUTC')In [426]: ts_utcOut[426]:2012-03-09 09:30:00+00:00 
0.4146152012-03-10 09:30:00+00:00 0.4271852012-03-11 09:30:00+00:00 1.1725572012- 
03-12 09:30:00+00:00 -0.3515722012-03-13 09:30:00+00:00 1.4545932012-03-14 
09:30:00+00:00 2.043319Freq: DIn [427]: ts_utc.indexOut[427]:[2012-03-09 09:30:00, .…， 
2012-03-14 09:30:00]Length: 6, Freq: D, Timezone: UTC 


一 旦 时 间 序 列 被 本 地 化 到 某 个 特定 时 区 ， 就 可 以 用 t 纪 _convert 将 其 转换 到 别 的 时 区 了 : 


In [428]: ts_utc.tz_convert(US/Eastern')Out[428]:2012-03-09 04:30:00-05:00 0.4146152012- 
03-10 04:30:00-05:00 0.4271852012-03-11 05:30:00-04:00 1.1725572012-03-12 05:30:00- 
04:00 -0.3515722012-03-13 05:30:00-04:00 1.4545932012-03-14 05:30:00-04:00 
2.043319Freq: D 


对 于 上 面 这 种 时 间 序列 〈 它 跨越 了 美国 东部 时 区 的 夏令 时 转变 期 ) ， 我 们 可 以 将 其 本 地 化 到 
EST， 然 后 转换 为 UTC 或 柏林 时 间 : 


In [429]: ts_eastern = ts.tz_localize(US/Eastern'")In [430]: 
ts_eastern.tz_convert(UTC')Out[430]:2012-03-09 14:30:00+00:00 0.4146152012-03-10 
14:30:00+00:00 0.4271852012-03-11 13:30:00+00:00 1.1725572012-03-12 13:30:00+00:00 
-0.3515722012-03-13 13:30:00+00:00 1.4545932012-03-14 13:30:00+00:00 2.043319Freq: 
DIn [431]: ts_eastern.tz_convert(CEurope/Berlin)Out[431]:2012-03-09 15:30:00+01:00 
0.4146152012-03-10 15:30:00+01:00 0.4271852012-03-11 14:30:00+01:00 1.1725572012- 
03-12 14:30:00+01:00 -0.3515722012-03-13 14:30:00+01:00 1.4545932012-03-14 
14:30:00+01:00 2.043319Freq: D 


tz_localize 和 tz_convert 也 是 Datetimelndex 的 实例 方法 : 


In [432]: ts.index.tz_localize(Asia/Shanghai')Out[432]:[2012-03-09 09:30:00, ..., 2012-03-14 
09:30:00]Length: 6, Freq: D, Timezone: Asia/Shanghai 


警告 : 对 单纯 时 间 戳 的 本 地 化 操作 还 会 检查 夏令 时 转变 期 附近 容易 混淆 或 不 存在 的 时 间 。 
操作 时 区 意识 型 Timestamp 对 象 


跟 时 间 序 列 和 日 期 范围 差不多 ，Timestamp 对 象 也 能 被 从 单纯 型 (naive) 本 地 化 为 时 区 意识 
型 (time zone-aware) ， 并 从 一 个 时 区 转换 到 另 一 个 时 区 : 


In [433]: stamp = pd.Timestamp(2011-03-12 04:00")In [434]: stamp_utc = 
stamp.tz_localize('utc'")In [435]: stamp_utc.tz_convert(US/Eastern')Out[435]: 


在 创建 Timestamp 时 ， 还 可 以 传人 一 个 时 区 信息 : 


In [436]: stamp_moscow = pd.Timestamp(2011-03-12 04:00'", tz='Europe/Moscow')ln [437]: 
stamp_moscowoOut[437]: 


时 区 意识 型 Timestamp 对 象 在 内 部 保存 了 一 个 UTC 时 间 戳 值 〈 自 UNIX 纪 元 (1970 年 1 月 1 日 ) 
算 起 的 纳 秒 数 ) 。 这 个 UTC 值 在 时 区 转换 过 程 中 是 不 会 发 生变 化 的 : 


In [438]: stamp_utc.valueOut[438]: 1299902400000000000In [439]: 
stamp_utc.tz_convert('US/Eastern').valueOut[439]: 1299902400000000000 

当 使 用 pandas 的 DateOffset 对 象 执行 时 间 算 术 运 算 时 ， 运 算 过 程 会 自动 关注 是 否 存在 夏令 时 
转变 期 : 


夏令 时 转变 前 30 分 钟 In [440]: from 
pandas.tseries.offsets import Hourln [441]: 
stamp = pd.Timestamp(2012-03-12 01:30 ， 
tz="US/Eastern')In [442]: stampOut[442]: In 
[443]: stamp + Hour()Out[443]: # 夏令 时 转 
变 前 90 分 钟 In [444]: stamp = 
pd.Timestamp(2012-11-04 00:30， 
tz="US/Eastern')In [445]: stampOut[445]: In 
[446]: stamp + 2* Hour()Out[446]: 


不 同时 区 之 间 的 运算 


如 果 两 个 时 间 序 列 的 时 区 不 同 ， 在 将 它们 合并 到 一 起 时 ， 最 终结 果 就 会 是 UTC。 由 于 时 间 惟 
其 实 是 以 UTC 存储 的 ， 所 以 这 是 一 个 很 简单 的 运算 ， 并 不 需要 发 生 任何 转换 : 


In [447]: rng = pd.date_range(3/7/2012 9:30', periods=10, freq='B')In [448]: ts = 
Series(np.random.randn(len(rng)), index=rng)ln [449]: tsOut[449]:2012-03-07 09:30:00 
-1.7493092012-03-08 09:30:00 -0.3872352012-03-09 09:30:00 -0.2080742012-03-12 
09:30:00 -1.2219572012-03-13 09:30:00 -0.0674602012-03-14 09:30:00 0.2290052012-03- 
15 09:30:00 -0.5762342012-03-16 09:30:00 0.8168952012-03-19 09:30:00 -0.7721922012- 
03-20 09:30:00 -1.333576Freq: Bln [450]: ts1 = ts[:7].tz_localize(Europe/London')In [451]: 
ts2 = ts1[2:].tz_convert(Europe/Moscow')In [452]: result = ts1 + ts2ln [453]: 
result.indexOut[453]:[2012-03-07 09:30:00, ..., 2012-03-15 09:30:00]Length: 7, Freq: B, 
Timezone: UTC 


译注 6 : 也 叫 时 区 信息 数据 库 ， 以 创始 人 David Olson 命 名 。 
时 期 及 其 算术 运算 


时 期 (period) 表示 的 是 时 间 区 间 ， 上 比如 数 日 、 数 月 、 数 季 、 数 年 等 。Period 类 所 表示 的 就 是 
这 种 数据 类 型 ， 其 构造 函数 需要 用 到 一 个 字符 串 或 整数 ， 以 及 表 10-4 中 的 频率 : 


In [454]: p = pd.Period(2007, freq='"A-DEC')In [455]: pOut[455]: Period('2007", 'A-DEC)') 


这 个 Period 对 象 表 示 的 是 从 2007 年 1 月 1 日 到 2007 年 12 月 31 日 之 间 的 整 段 时 间 。 只 需 对 Period 
对 象 加 上 或 减 去 一 个 整数 即 可 过 到 根据 其 频率 进行 位 移 的 效果 : 


In [456]: p + 5 In [457]: p - 2Out[456]: Period('2012', 'A-DEC') Out[457]: Period('2005", 'A- 
DEC') 


如 果 两 个 Period 对 象 拥有 相同 的 频率 ， 则 它们 的 差 就 是 它们 之 间 的 单位 数量 : 
In [458]: pd.Period('2014'", freq="A-DEC') - pOut[458]: 7 
period_range 画 数 可 用 于 创建 规则 的 时 期 范围 : 


In [459]: rng = pd.period_range('1/1/2000", '6/30/2000", freq="M'")In [460]: rngOut[460]:fred: 
M[2000-01, ..., 2000-06]length: 6 


Periodlndex 类 保存 了 一 组 Period， 它 可 以 在 任何 pandas 数 据 结构 中 被 用 作 轴 索引 : 


In [461]: Series(np.random.randn(6), index=rng)Out[461]:2000-01 -0.3091192000-02 
0.0285582000-03 1.1296052000-04 -0.3741732000-05 -0.0114012000-06 0.272924Freq: M 


Periodlndex 类 的 构造 画 数 还 允许 直接 使 用 一 组 字符 串 : 


In [462]: values = [2001Q3', '2002Q2", '2003Q1'"]In [463]: index = pd.PeriodIndex(values, 
freq='Q-DEC')In [464]: indexOut[464]:freq: Q-DEC[2001Q3, ..., 2003Q1]length: 3 


时 期 的 频率 转换 


Period 和 Periodlndex 对 象 都 可 以 通过 其 asfreq 方 法 被 转换 成 别 的 频率 。 假 设 我 们 有 一 个 年 度 
时 期 ， 希 望 将 其 转换 为 当年 年 初 或 年 末 的 一 个 月 度 时 期 。 该 任务 非常 简单 : 


In [465]: p = pd.Period(2007 , freq='A-DEC')In [466]: p.asfreq('M', how='start ) In [467]: 
p.asfreq('M', how='end')Out[466]: Period(‘2007-01'", 'M') Out[467]: Period('2007-12", 'M') 


你 可 以 将 Period('2007',"A-DEC'") 看 做 一 个 被 划分 为 多 个 月 度 时 期 的 时 间 段 中 的 游标 。 图 10-1 对 
此 进行 了 说 明 。 对 于 一 个 不 以 12 月 结束 的 财政 和 年度， 月度 子 时 期 的 为 属 情况 就 不 一 样 了 : 


In [468]: p = pd.Period('2007", freq='A-JUN'")In [469]: p.asfreq('M'", 'start’) In [470]: 
p.asfreq('M', 'end')Out[469]: Period(2007-06", 'M') Out[470]: Period('2007-06', 'M') 


在 将 高 频率 转换 为 低频 率 时 ， 超 时 期 (superperiod) 是 由 子 时 期 (subperiod) 所 属 的 位 置 决 
定 的 。 例 如 ， 在 A-JUN 频 率 中 ， 月 份 2007 年 8 月 "实际 上 是 属于 周期 *2008 年 "的 : 


In [471]: p = pd.Period('2007-08", 'M'")In [472]: p.asfreq(A-JUN')Out[472]: Period('2008'", 'A- 
JUN') 


Periodlndex 或 TimeSeries 的 频率 转换 方式 也 是 如 此 : 


In [473]: rng = pd.period_range('2006", '2009'", freq='A-DEC')In [474]: ts = 
Series(np.random.randn(len(rng)), index=rngjln [475]: tsOut[475]:2006 -0.6015442007 
0.5742652008 -0.1941152009 0.202225Freq: A-DECIn [476]: ts.asfreq('M', how='start ) In 
[477]: ts.asfreq('B'", how='end')Out[476]: Out[477]:2006-01 -0.601544 2006-12-29 
-0.6015442007-01 0.574265 2007-12-31 0.5742652008-01 -0.194115 2008-12-31 
-0.1941152009-01 0.202225 2009-12-31 0.202225Freq: M Freq: B 


Period('2011-06, 'M') 





Period(2011, A-DEC') 


图 10-1 : Period 频 率 转 换 示 例 

按 季 度 计 算 的 时 期 频率 

季度 型 数据 在 会 计 、 金 融 等 领域 中 很 常见 。 许 多 季度 型 数据 都 会 涉及 " 财 年 末 " 的 概念 ， 通 常 是 
一 年 12 个 月 中 某 月 的 最 后 一 个 日 历 日 或 工作 日 。 就 这 一 点 来 说 ， 时 期 "2012Q4" 根 据 财 年 末 的 
不 同 会 有 不 同 的 含义 。pandas 支 持 12 种 可 能 的 季度 型 频率 ， 即 Q-JAN 到 Q-DEC : 

In [478]: p = pd.Period(2012Q4', freq='Q-JAN')In [479]: pOut[479]: Period('2012Q4", 'Q- 
JAN') 

在 以 1 月 结束 的 财 年 中 ，2012Q4 是 从 11 月 到 1 月 (将 其 转换 为 日 型 频率 就 明白 了 ) 。 图 10-2 对 
此 进行 了 说 明 : 

In [480]: p.asfreq('D'", 'start’) In [481]: p.asfreq('D', 'end')Out[480]: Period('2011-11-01", 'D') 
Out[481]: Period(2012-01-31", 'D') 

因此 ，Period 之 间 的 算术 运算 会 非常 简单 。 例 如 ， 要 获取 该 季度 倒数 第 二 个 工作 日 下 午 4 点 的 
时 间 惟 ， 你 可 以 这 样 : 

In [482]: p4pm = (p.asfreq('B', 'e') - 1).asfreq('T', 's') + 16 * 60In [483]: p4pmMOut[483]: 
Period('2012-01-30 16:00", "T")In [484]: p4pm.to_timestamp()Out[484]: 


Year 2012 
M [iAN | FE8 | MAR | APR | MAY | JUN LOUL | AuG | SEP | OCT | NOV | DEC | 


Q-DEC 201201 201202 201203 201204 
Q-SEP 201202 201203 201204 


Q-FEB 201301 201302 2030 To) 


图 10-2 : 不 同 季度 型 频率 之 间 的 转换 
period_range 还 可 用 于 生成 季度 型 范围 。 季 度 型 范围 的 算术 运算 也 跟 上 面 是 一 样 的 : 


In [485]: rng = pd.period_range(2011Q3", '2012Q4", freq='Q-JAN')In [486]: ts = 
Series(np.arangel(len(rng)), index=rng)In [487]: tsOut[487]:2011Q3 02011Q4 12012Q1 
22012Q2 32012Q3 42012Q4 5Freq: Q-JANIn [488]: new_rng = (rng.asfreq('B', 'e') - 


1).asfreq('T', 's') + 16 * 60In [489]: ts.index = new_rng.to_timestamp()In [490]: 
tsOut[490]:2010-10-28 16:00:00 02011-01-28 16:00:00 12011-04-28 16:00:00 22011-07-28 
16:00:00 32011-10-28 16:00:00 42012-01-30 16:00:00 5 


将 Timestamp 转 换 为 Period (及 其 反 向 过 程 ) 


通过 使 用 to_period 方 法 ， 可 以 将 由 时 间 惟 索引 的 Series 和 DataFrame 对 象 转换 为 以 时 期 索 
引 : 


In [491]: rng = pd.date_range('1/1/2000", periods=3, freq="M')In [492j: ts = Series(randn(3)， 
index=rngjln [493]: pts = ts.to_period()In [494]: tsOut[494]:2000-01-31 -0.5051242000-02-29 
2.9544392000-03-31 -2.630247Freq: Mln [495]: ptsOut[495]:2000-01 -0.5051242000-02 
2.9544392000-03 -2.630247Freq: M 


由 于 时 期 指 的 是 非 重 县 时 间 区 间 ， 因 此 对 于 给 定 的 频率 ， 一 个 时 间 稚 只 能 属于 一 个 时 期 。 新 
Periodlndex 的 频率 默认 是 从 时 间 惟 推断 而 来 的 ， 你 也 可 以 指定 任何 别 的 频率 。 结 果 中 允许 存 
在 重复 时 期 : 


In [496]: rng = pd.date_range(1/29/2000', periods=6, fredq='D')In [497]: ts2 = Series(randn(6)， 
index=rngjln [498]: ts2.to_period('M')Out[498]:2000-01 -0.3524532000-01 -0.4778082000- 
01 0.1615942000-02 1.6868332000-02 0.8219652000-02 -0.667406Freq: M 


要 转换 为 时 间 戳 ， 使 用 to_timestamp 即 可 : 


In [499]: pts = ts.to_period()In [500]: ptsOut[500]:2000-01 -0.5051242000-02 2.9544392000- 
03 -2.630247Freq: MIn [501]: pts.to_timestamp(how='end')Out[501]:2000-01-31 
-0.5051242000-02-29 2.9544392000-03-31 -2.630247Freq: M 


通过 数组 创建 Periodlndex 


固定 频率 的 数据 集 通常 会 怪 时间 信 息 分 开 存 放 在 多 个 列 中 。 例 如 ， 在 下 面 这 个 宏观 经 济 数 据 
集中 ， 年 度 和 季度 就 分 别 存 放 在 不 同 的 列 中 : 


In [502]: data = pd.read_csv(ch08/macrodata.csv')In [503]: data.year In [504]: 
data.quarterOut[503]: Out[504]:0 1959 0 11 1959 1 22 1959 2 33 1959 3 4.… .… 199 2008 199 
4200 2009 200 1201 2009 201 2202 2009 202 3Name: year Length: 203 Name: quarter, 
Length: 203 


冯 这 两 个 数组 以 及 一 个 频率 传人 Periodlndex， 就 可 以 将 它们 合并 成 DataFrame 的 一 个 索引 : 


In [505]: index = pd.Periodlndex(year=data.year quarter=data.quarter, freq='Q-DEC')In 
[506]: indexOut[506]:freq: Q-DEC[1959Q1, ..., 2009Q3]length: 203In [507]: data.index = 
indexln [508]: data.inflout[508]:1959Q1 0.001959Q2 2.341959Q3 2.741959Q4 
0.27...2008Q4 -8.792009Q1 0.942009Q2 3.372009Q3 3.56Freq: Q-DEC, Name: infl， 
Length: 203 


重 采样 及 频率 转换 


重 采样 (resampling) 指 的 是 将 时 间 序 列 从 一 个 频率 转换 到 另 一 个 频率 的 处 理 过 程 。 将 高 频率 
数据 聚合 到 低频 率 称 为 降 采 样 (downsampling) ， 而 将 低频 率 数据 转换 到 高 频率 则 称 为 升 采 
(upsampling) 。 并 不 是 所 有 的 重 采样 都 能 被 划分 到 这 两 个 大 类 中 。 例 如 ， 将 W-WED (每 周 
三 ) 转换 为 W-FRI 既 不 是 降 采 样 也 不 是 升 采样 。 


pandas 对 象 都 带 有 一 个 resample 方 法 ， 它 是 各 种 频率 转换 工作 的 主力 画 数 : 


In [509]: rng = pd.date_range('1/1/2000", periods=100, freq='D')In [510]: ts = 
Series(randn(len(rng)), index=rng)In [511]: ts.resample('M', how='mean')Out[511]:2000-01- 
31 0.1708762000-02-29 0.1650202000-03-31 0.0954512000-04-30 0.363566Freq: MIn 
[512]: ts.resample('M', how='mean', kind='period')Out[512]:2000-01 0.1708762000-02 
0.1650202000-03 0.0954512000-04 0.363566Freq: M 


resample 是 一 个 灵活 高 效 的 方法 ， 可 用 于 处 理 非常 大 的 时 间 序 列 。 我 将 通过 一 系列 的 示例 说 
明 其 用 法 。 


表 10-5: resample 方 法 的 参数 


参数 说 明 

freq 表示 重 采 样 频率 的 字符 串 或 DateOffset， 例 如 'M'、'5min' 或 
Second{15) 

how='mean' 用 于 产生 聚合 值 的 函数 名 或 数组 函数 ， 例 如 'mean'、'ohlc'、 


np.max 等 。 默 认为 'mean'。 其 他 常用 的 值 有 : 'first'、'last'、 


median' 、'ohlc 、'max、'min' 


axis=0 重 采 样 的 轴 ， 默 认为 axis=0 

fill_method=None “ 升 采 样 时 如 何 插值 ， 比 如 ' 从 儿 或 "b 仙 |'。 默 认 不 插值 

closed='right' 在 降 采 样 中 ， 各 时 间 段 和 的 哪 一 端 是 闭合 ( 即 包 含 ) 的 ，'right' 或 
‘left'。 默 认为 'right 

label='right' 在 降 采 样 中 ， 如 何 设置 聚合 值 的 标签 ，'right' 或 'left' ( 面 元 的 右边 


界 或 左边 界 ) 。 例 如 ，9:30 到 9:35 之 间 的 这 5 分 钟 会 被 标记 为 9:30 或 
9:35。 默 认为 right' (本 例 中 就 是 9:35) 


表 10-5: resample 方 法 的 参数 ( 续 ) 


参数 说 明 

loffset=None 面 元 标签 的 时 间 校 正 值 ， 比 如 '-1s' / Second(-1) 用 于 将 聚合 标签 调 
早 1 秒 

limit=None 在 前 向 或 后 向 填充 时 ， 人 允许 填充 的 最 大 时 期 数 

kind=None 聚合 到 时 期 ('period') 或 时 间 堆 (timestamp') ， 默 认 聚 合 到 时 


间 序 列 的 索引 类 型 
convention=None “ 当 重 采样 时 期 时 ， 将 低频 率 转 换 到 高 频率 所 采用 的 约定 〈《'start' 或 
end') 。 上 默认 为 'end' 





将 数据 聚合 到 规整 的 低频 率 是 一 件 非常 普通 的 时 间 序列 义理 任务 。 待 聚合 的 数据 不 必 拥 有 固 
定 的 频率 ， 期 望 的 频率 会 自动 定义 聚合 的 面 元 边界 ， 这 些 面 元 用 于 将 时 间 序 列 拆 分 为 多 个 片 
段 。 例 如 ， 要 转换 到 月 度 频 率 ('M' 或 BM') ， 数 据 需要 被 划分 到 多 个 单 月 时 间 段 中 。 各 时 间 
段 都 是 半 开 放 的 。 一 个 数据 点 只 能 属于 一 个 时 间 段 ， 所 有 时 间 段 的 并 集 必 须 能 组 成 整个 时 间 
帧 。 在 用 resample 对 数据 进行 降 采 样 时 ， 需 要 考虑 两 样 东 西 : 


:各 区 间 哪 边 是 闭合 的 。 
-如何 标记 各 个 聚合 面 元 ， 用 区 间 的 开头 还 是 末尾 。 
首先 ， 我 们 来 看 一 些 “1 分 钟 "数据 : 


In [513]: rng = pd.date_range('1/1/2000", periods=12, freq="T")In [514]: ts = 
Series(np.arange(12), index=rngjln [515]: tsOut[515]:2000-01-01 00:00:00 02000-01-01 
00:01:00 12000-01-01 00:02:00 22000-01-01 00:03:00 32000-01-01 00:04:00 42000-01-01 
00:05:00 52000-01-01 00:06:00 62000-01-01 00:07:00 72000-01-01 00:08:00 82000-01-01 
00:09:00 92000-01-01 00:10:00 102000-01-01 00:11:00 11Freq: T 


假设 你 想 要 通过 求 和 的 方式 将 这 些 数据 聚合 到 “5 分 钟 " 块 中 : 


In [516]: ts.resample(5min', how='sum')Out[516]:2000-01-01 00:00:00 02000-01-01 
00:05:00 152000-01-01 00:10:00 402000-01-01 00:15:00 11Freq: 5T 


传人 的 频率 将 会 以 "5 分 钟 "的 增 量 定义 面 元 边界 。 默 认 情 况 下 ， 面 元 的 右边 界 是 包含 的 ， 因 此 
00:00 到 00:05 的 区 间 中 是 包含 00:05 的 


注 1 
。 传 人 closed='left 会 让 区 间 以 左边 界 闭合 : 


In [517]: ts.resample('Smin', how='sum', closed='left)Out[517]:2000-01-01 00:05:00 102000- 
01-01 00:10:00 352000-01-01 00:15:00 21Freq: ST 


如 你 所 见 ， 最 终 的 时 间 序 列 是 以 各 面 元 右边 界 的 时 间 戳 进行 标记 的 。 传 人 label='eft 即 可 用 面 
元 的 左边 界 对 其 进行 标记 : 


In [518]: ts.resample(5min', how='sum', closed='eft, label='eft)Out[518]:2000-01-01 
00:00:00 102000-01-01 00:05:00 352000-01-01 00:10:00 21Freq: 5T 


10-3 说 明了 “1 分 钟 "数据 被 转换 为 “5 分 钟 "数据 的 处 理 过 程 。 


closed="left' [900 | 901 | 902 | 903 | 904 | 905 


closed='Tight' [ 900 | 901 | %02 | %03 | 904 | 905 | 


label=" left' label='right" 


图 10-3 : 各 种 closed、label 约 定 的 “5 分 钟 " 重 采样 演示 


最 后 ， 你 可 能 希望 对 结果 索引 做 一 些 位 移 ， 上 比如 从 右边 界 减 去 一 秒 以 便 更 容易 明白 该 时 间 截 
到 底 表 示 的 是 哪个 区 间 。 只 需 通 过 loffset 设 置 一 个 字符 串 或 日 期 偏 移 量 即 可 实现 这 个 目的 : 


In [519]: ts.resample(5min', how='sum', loffset='"-1s')Out[519]:1999-12-31 23:59:59 02000- 
01-01 00:04:59 152000-01-01 00:09:59 402000-01-01 00:14:59 11Freq: 5T 


此 外 ， 也 可 以 通过 调用 结果 对 象 的 shift 方 法 来 实现 该 目的 ， 这 样 就 不 需要 设置 loffset 了。 
OHLC 重 采样 


金融 领域 中 有 一 种 无 所 不 在 的 时 间 序 列 聚 合 方式 ， 即 计算 各 面 元 的 四 个 值 : 第 一 个 值 

(open， 开 盘 ) 、 最 后 一 个 值 (close， 收 盘 ) 、 最 大 值 (high， 最 高 ) 以 及 最 小 值 〈low， 
最 低 ) 。 传 入 ow='ohlc' 即 可 得 到 一 个 含有 这 四 种 聚合 值 的 DataFrame。 整 个 过 程 很 高 效 ， 只 
需 一 次 扫描 即 可 计算 出 结 


In [520]: ts.resample(5min', how='ohlc')Out[520]: open high low close2000-01-01 00:00:00 0 
0 0 02000-01-01 00:05:00 15 152000-01-01 00:10:00 6 10 6 102000-01-01 00:15:00 11 11 
11 11 


通过 groupby 进 行 重 采样 
另 一 种 降 采 样 的 办 法 是 使 用 pandas 的 groupby 功 能 。 例 如 ， 你 打算 根据 月 份 或 星期 几 进 行 分 
组 ， 只 需 传 入 一 个 能 够 访问 时 间 序 列 的 索引 上 的 这 些 字 段 的 函数 即 可 : 


In [521]: rng = pd.date_range('1/1/2000", periods=100, freq='D'")In [522]: ts = 
Series(np.arange(100), index=rng)In [523]: ts.groupby(lambda x: x.month).mean()Out[523]:1 
152 453 754 95In [524]: ts.groupby(lambda x: x.weekday).mean()Out[524]:0 47.51 48.52 
49.53 50.54 51.55 49.06 50.0 


升 采样 和 插值 


在 将 数据 从 低频 率 转换 到 高 频率 时 ， 就 不 需要 聚合 了 。 我 们 来 看 一 个 带 有 一 些 周 型 数据 的 
DataFrame : 


In [525]: frame = DataFrame(np.random.randn(2, 4), ...: index=pd.date_range('1/1/2000", 
periods=2, freq="W-WED'"), .… columns=['Colorado'", 'Texas', New York', 'Ohio'"])In [526]: 
frame[:5]Out[526]: Colorado Texas New York Ohio2000-01-05 -0.609657 -0.268837 


0.195592 0.859792000-01-12 -0.263206 1.141350 -0.101937 -0.07666 
将 其 重 采样 到 日 频率 ， 默 认 会 引入 缺失 值 : 


In [527]: df _ daily = frame.resample('D')In [528]: df dailyOut[528]: Colorado Texas New York 
Ohio2000-01-05 -0.609657 -0.268837 0.195592 0.859792000-01-06 NaN NaN NaN 
NaN2000-01-07 NaN NaN NaN NaN2000-01-08 NaN NaN NaN NaN2000-01-09 NaN NaN 
NaN NaN2000-01-10 NaN NaN NaN NaN2000-01-11 NaN NaN NaN NaN2000-01-12 
-0.263206 1.141350 -0.101937 -0.07666 


假设 你 想 要 用 前 面 的 周 型 值 填充 “ 非 星期 三 ”。resampling 的 填充 和 插值 方式 跟 fillIna 和 reindex 的 
一 样 3 


In [529]: frame.resample('D'", fill_ method="ffill )Out[529]: Colorado Texas New York 
Ohio2000-01-05 -0.609657 -0.268837 0.195592 0.859792000-01-06 -0.609657 -0.268837 
0.195592 0.859792000-01-07 -0.609657 -0.268837 0.195592 0.859792000-01-08 
-0.609657 -0.268837 0.195592 0.859792000-01-09 -0.609657 -0.268837 0.195592 
0.859792000-01-10 -0.609657 -0.268837 0.195592 0.859792000-01-11 -0.609657 
-0.268837 0.195592 0.859792000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


同样 ， 这 里 也 可 以 只 填充 指定 的 时 期 数 〈 目 的 是 限制 前 面 的 观测 值 的 持续 使 用 距离 ) 


In [530]: frame.resample('D'", fill_ method="ffill', limit=2)Out[530]: Colorado Texas New York 
Ohio2000-01-05 -0.609657 -0.268837 0.195592 0.859792000-01-06 -0.609657 -0.268837 
0.195592 0.859792000-01-07 -0.609657 -0.268837 0.195592 0.859792000-01-08 NaN NaN 
NaN NaN2000-01-09 NaN NaN NaN NaN2000-01-10 NaN NaN NaN NaN2000-01-11 NaN 
NaN NaN NaN2000-01-12 -0.263206 1.141350 -0.101937 -0.07666 


注意 ， 新 的 日 期 素 引 完全 没 必要 跟 旧 的 相交 : 


In [531]: frame.resample(W-THU', fill_ method="ffill)Out[531]: Colorado Texas New York 
Ohio2000-01-06 -0.609657 -0.268837 0.195592 0.859792000-01-13 -0.263206 1.141350 
-0.101937 -0.07666 


通过 时 期 进行 重 采样 
对 那些 使 用 时 期 索引 的 数据 进行 重 采样 是 件 非常 简单 的 事情 : 


In [532]: frame = DataFrame(np.random.randn(24, 4), ...: index=pd.period_range(1-2000， 
'12-2001", freq='M'), ...: columns=['Colorado'", "Texas', 'New York', 'Ohio'])In [533]: 
frame[:5]Out[533]: Colorado Texas New York Ohio2000-01 0.120837 1.076607 0.434200 
0.0564322000-02 -0.378890 0.047831 0.341626 1.5679202000-03 -0.047619 -0.821825 
-0.179330 -0.1666752000-04 0.333219 -0.544615 -0.653635 -2.3110262000-05 1.612270 


-0.806614 0.557884 0.580201In [534]: annual frame = frame.resample('A-DEC,, 
how='mean'")In [535]: annual_ frameOut[535]: Colorado Texas New York Ohio2000 0.352070 
-0.553642 0.196642 -0.0940992001 0.158207 0.042967 -0.360755 0.184687 


升 采 样 要 稍微 麻烦 一 些 ， 因 为 你 必须 决定 在 新 频率 中 各 区 间 的 哪 端 用 于 放置 原来 的 值 ， 就 像 
asfreq 方 法 那样 。convention 参 数 默认 为 'end'， 可 设置 为 'start' : 


Q-DEC: 季度 型 (每 年 以 12 月 结束 ) In [536]: 
annual frame.resample('Q-DEC,, 

fill_ method="ffill)Out[536]: Colorado Texas 
New York Ohio2000Q4 0.352070 -0.553642 
0.196642 -0.0940992001Q1 0.352070 
-0.553642 0.196642 -0.0940992001Q2 
0.352070 -0.553642 0.196642 
-0.0940992001Q3 0.352070 -0.553642 
0.196642 -0.0940992001Q4 0.158207 
0.042967 -0.360755 0.184687In [537]: 
annual frame.resample('Q-DEC,, 

fill_ method="ffill", 
convention="start')Out[537]: Colorado 
Texas New York Ohio2000Q1 0.352070 
-0.553642 0.196642 -0.0940992000Q2 
0.352070 -0.553642 0.196642 
-0.0940992000Q3 0.352070 -0.553642 
0.196642 -0.0940992000Q4 0.352070 
-0.553642 0.196642 -0.0940992001Q1 
0.158207 0.042967 -0.360755 0.184687 


由 于 时 期 指 的 是 时 间 区 间 ， 所 以 升 采 样 和 降 采 样 的 规则 就 比较 严格 : 


.在 降 采 样 中 ， 目 标 频 率 必 须 是 源 频 率 的 子 时 期 (subperiod) 。 
:在 升 采 样 中 ， 目 标 频 率 必须 是 源 频 率 的 超时 期 (superperiod) 。 


如 果 不 满足 这 些 条 件 ， 就 会 引发 异常 。 这 主要 影响 的 是 按 季 、 年 、 周 计算 的 频率 。 例 如 ， 由 
Q-MAR 定 义 的 时 间 区 间 只 能 升 采样 为 A-MAR、A-JUN、A-SEP、A-DEC 等 : 


In [538]: annual_ frame.resample(‘Q-MAR.', fll_method="ffill')Out[538]: Colorado Texas New 
York Ohio2001Q3 0.352070 -0.553642 0.196642 -0.0940992001Q4 0.352070 -0.553642 
0.196642 -0.0940992002Q1 0.352070 -0.553642 0.196642 -0.0940992002Q2 0.352070 
-0.553642 0.196642 -0.0940992002Q3 0.158207 0.042967 -0.360755 0.184687 


NS 


注 1 


: closed='right'"、label='right' 这 两 个 默认 值 可 能 会 让 部 分 用 户 感到 奇怪 。 在 实际 工作 当中 ， 这 
两 个 选项 的 值 比较 随意 。 对 于 某 些 目标 频率 ，c10 s e d='| e ft 会 更 好 ， 而 对 于 其 他 的 ， 则 
closed='right' 才 更 为 合理 。 你 真正 应 该 关注 的 是 要 如 何 对 数据 分 段 。 


时 间 序 列 绘 


pandas 时 间 序列 的 绘图 功能 在 日 期 格式 化 方面 比 matplotlib 原 生 的 要 好 。 来 看 下 面 这 个 例子 ， 
我 先 从 Yahool!Finance 下 载 了 几 只 美国 股票 的 一 些 价格 数据 : 


In [539]: close_ px_all = pd.read csv('chO9/stock px.csv', parse_dates=True, index_col=0)In 
[540]: close_px = close_ px_alll[AAPL', 'MSFT', XOM']]In [541]: close_px = 
close_px.resample('B'", fill_ method="ffill')In [542]: close_pxOut[542]:Datetimelndex: 2292 
entries, 2003-01-02 00:00:00 to 2011-10-14 00:00:00Freq: BData columns:AAPL 2292 non- 
null valuesMSFT 2292 non-null valuesXOM 2292 non-null valuesdtypes: float64(3) 


对 其 中 任意 一 列 调用 plot 即 可 生成 一 张 简 单 的 图 表 ， 如 图 10-4 所 示 。 


In [544]: close_px['AAPL'].plot() 
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10-4 : AAPL 每 日 价格 


当 对 DataFrame 调 用 plot 时 ， 所 有 时 间 序 列 都 会 被 绘制 在 一 个 subplot 上 ， 并 有 一 个 图 例 说 明 哪 
个 是 哪个 。 这 里 我 只 绘制 了 2009 年 的 数据 ， 如 图 10-5 所 示 ， 月 份 和 年 度 都 被 格式 化 到 了 X 轴 
上 。 


In [546]: close_px.ix["2009'].plot() 











图 10-5 : 2009 年 的 股票 价格 





10-6 : 葵 果 公司 在 2011 年 1 月 到 3 月 间 的 每 日 股价 
10-6 展 示 了 茶 果 公司 在 2011 年 1 月 到 3 月 间 的 每 日 股价 。 
In [548]: close_px['AAPL'],ix['01-2011':"03-20111.plot() 


季度 型 频率 的 数据 会 用 季度 标记 进行 格式 化 ， 这 种 事情 如 果 纯 手工 做 的 话 那 是 很 旨 精 力 的 。 
如 图 10-7 所 示 。 


In [550]: appl_q = close_px['AAPL'.resample('‘Q-DEC,", fill method="ffill)In [551]: 
appl_q9.ix[2009":].plot() 


pandas 时 间 序 列 在 绘图 方面 还 有 一 个 特点 : 当 右 键 点 击 


译注 7 


并 拖拉 (放大 、 缩 小) 时 ， 日 期 会 动态 展开 或 收缩 ， 且 绘图 窗口 中 的 时 间 区 间 会 被 重新 格式 
人 化。 当然， 只 有 在 交互 模式 下 使 用 matplotlib 才 会 有 此 效果 。 
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图 10-7 : 茶 果 公司 在 2009 年 到 2011 年 间 的 每 季度 股价 


译注 7 : 应 该 是 按 住 (hold) 而 不 是 点 击 (click) 。 


移动 窗口 本 数 
在 移动 窗口 〈 可 以 带 有 指数 衰减 权 数 ) 上 计算 的 各 种 统计 函数 也 是 一 见于 时 间 序 列 的 数 


组 变换 。 我 业 它 们 称 为 移动 窗口 图 数 (moving window function) ， tt 口 不 定 
长 的 数 (如 指数 加 权 移 动 平均 ) 。 跟 其 他 统计 男 数 一 样 ， 移 动 窗口 函数 也 会 自动 排除 缺失 
值 。 


rolling_mean 是 其 中 最 简单 的 一 个 。 它 接受 一 个 TimeSeries 或 DataFrame 以 及 一 
window (表示 期 数 ) 


In [555]: close_ px.AAPL.plot()Out[555]: In [556]: pd.rolling_mean(close_px.AAPL, 250).plot() 
结果 如 图 10-8 所 示 。 默 认 情 况 下 ， 诸 如 rolling_mean 这 样 的 画 数 需要 指定 数量 

译注 8 

的 非 NA 观 测 值 。 可 以 修改 该 行为 以 解决 缺失 数据 的 问题 。 其 实 ， 在 时 间 序 列 开始 处 尚 不 足 窗 
口 期 的 那些 数据 就 是 个 特例 〈 见 图 10-9) 
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图 10-8 : 葵 果 公司 股价 的 250 日 均线 


In [558]: appl_ std250 = pd.rolling_std(close_px.AAPL, 250, min_periods=10)In [559]: 
appl_std250[5:12]Out[559]:2003-01-09 NaN2003-01-10 NaN2003-01-13 NaN2003-01-14 
NaN2003-01-15 0.0774962003-01-16 0.0747602003-01-17 0.112368Freq: Bln [560]: 
appl_std250.plot() 
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图 10-9 : 荣 果 公司 250 日 每 日 回报 标准 差 


要 计算 扩展 窗口 平均 (expanding window mean) ， 你 可 以 将 扩展 窗口 看 做 一 个 特殊 的 窗 
口 ， 其 长 度 和 与 时 间 序 列 一 样 ， 但 只 需 一 期 (或 多 期 


译注 9 


) 即 可 计算 一 个 值 : 


通过 rolling_mean 定 义 扩 展 平均 In [561]: 
expanding_mean = lambda x: 
rolling_mean(x, len(x), min_periods=1) 

对 DataFrame 调 用 rolling_mean (以 及 和 与 之 类 似 的 函数 ) 会 业 转 换 应 用 到 所 有 的 列 上 ( 见 图 
10-10) 


In [563]: pd.rolling_mean(close_px, 60).plot(logy=True) 








10-10 : 各 股价 60 日 均线 〈 对 数 Y 轴 ) 


表 10-6 中 列 出 了 pandas 中 的 此 类 部 数 。 
表 10-6: 移动 窗口 和 指数 加 权 求 数 


函数 说 明 
rolling_count 返回 各 窗口 非 NA 观测 值 的 数量 
rolling_sum 移动 窗口 的 和 


移动 窗口 的 平均 值 
移动 窗口 的 中 位 数 
移动 窗口 的 方差 和 标准 差 。 分 母 为 n -1 


rolling_mean 
rolling_median 


rolling_var、rolling_std 


rolling_skew、olling_kurt 
rolling_min 、rolling_max 
rolling_quantile 
rolling_corr、rolling_cov 
rolling_apply 

ewma 

ewmvar、ewmstd 


ewmcorr, ewmcov 


移动 窗口 的 偏 度 (三 阶 和 矩 ) 和 峰 度 (四 阶 和 矩 ) 
移动 窗口 的 最 小 值 和 最 大 值 

移动 窗口 指定 百 分 位 数 /样本 分 位 数位 置 的 值 
移动 窗口 的 相关 系数 和 协 方 差 

对 移动 窗口 应 用 普通 数组 函数 
指数 加 权 移 动 平均 

指数 加 权 移 动 方 差 和 标准 差 

痢 数 加 权 移 动 相关 系数 和 协 方 差 





注意 : bottleneck (由 Keith Goodman 制 作 的 Python 库 ) 提供 了 另 一 种 对 NaN 友 好 的 移动 窗口 
函数 集 。 值 得 一 看 ， 说 不 定 能 在 你 的 工作 中 派 上 用 场 。 


指数 加 权 函 数 


另 一 种 使 用 固定 大 小 窗口 及 相等 权 数 观 测 值 的 办 法 是 ， 定 义 一 个 衰减 因子 (decay factor) 常 
量 ， 以 便 使 近期 的 观测 值 拥有 更 大 的 权 数 。 用 数学 术语 来 讲 ， 如 果 mat 是 时 间 t 的 移动 平均 结 
果 ，x 是 时 间 序列 ， 结 果 中 的 各 个 值 可 用 mat =amat-17+(a -71)x-t 进 行 计算 ， 其 中 a 为 衰减 因子 。 
衰减 因子 的 定义 方式 有 很 多 ， 比 较 流 行 的 是 使 用 时 间 间 隔 (span) ， 它 可 以 使 结果 兼容 于 窗 
口 大 小 等 于 时 间 间 隔 的 简单 移动 窗口 (simple moving window) 男 数 。 


由 于 指数 加 权 统 计 会 赋予 近期 的 观测 值 更 大 的 权 数 ， 因 此 相对 于 等 权 统计 


译注 10 


， 它 能 “适应 ”更 快 的 变化 。 下 面 这 个 例子 对 比 了 葵 果 公司 股价 的 60 日 移动 平均 和 span=60 的 指 
数 加 权 移 动 平 均 (如 图 10-11 所 示 ) 


fig, axes = plt.subplots(nrows=2, ncols=1, sharex=True, sharey=True, figsize=(12， 
7))aapl_px = close_px.AAPL[2005':"2009']ma60 = pd.rolling_mean(aapl_px, 60, 
min_periods=50)ewma60 = pd.ewmal(aapl_px, span=60)aapl_px.plot(style='k-", 
ax=axes[0])ma60.plot(style='k--, ax=axes[0])aapl_px.plot(style='k-", 
ax=axes[1])ewma60.plot(style='k--, ax=axes[1])axes[0].set title('Simple 
MA')axes[1].set title(Exponentially-weighted MA') 


Simple MA 
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10-11 : 简单 移动 平均 与 指数 加 权 移 动 平 均 
二 元 移动 窗口 本 数 


有 些 统计 运算 (如 相关 系数 和 协 方差 ) 需要 在 两 个 时 间 序 列 上 执行 。 例 如 ， 人 金融 分 析 羡 常常 
对 某 只 股票 对 某 个 参考 指数 (如 标准 普尔 500 指 数 ) 的 相关 系数 感 兴趣 。 我 们 可 以 通过 计算 百 
分 数 变化 并 使 用 rolling_corr 的 方式 得 到 该 结果 (如 图 10-12 所 示 ) 


In [569]: spx_px = close_px_all [SPX'In [570]: spx_rets = spx_px/ spx_px.shift(1) - 1In 
[571]: returns = close_px.pct_change()In [572]: corr = pd.rolling_corr(returns.AAPL， 
spx_rets, 125, min_periods=100)In [573]: corr.plot() 
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10-12 : AAPL 6 个 月 的 回报 与 标准 普尔 500 指 数 的 相关 系数 


假设 你 想 要 一 次 性 计算 多 只 股票 与 标准 普尔 500 指 数 的 相关 和 有 系数。 虽然 编写 一 个 循环 并 新 建 一 
个 DataFrame 不 是 什么 难事 ， 但 比较 唆 。 其 实 ， 只 需 传 人 一 个 TimeSeries 和 一 个 
DataFrame，rolling_corr 就 会 自动 计算 TimeSeries (本 例 中 就 是 spx_rets) 与 DataFrame 各 列 
的 相关 系数 。 结 果 如 图 10-13 所 示 : 


In [575]: corr = pd.rolling_corr(returns, spx_rets, 125, min_periods=100)In [576]: corr.plot() 
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图 10-13 : 3 只 股票 6 个 月 的 回报 与 标准 普尔 500 指 数 的 相关 系数 
用 户 定 义 的 移动 窗口 为 数 


rolling_apply 画 数 使 你 能 够 在 移动 窗口 上 应 用 自己 设计 的 数组 函数 。 唯 一 要 求 的 就 是 : 该 琅 数 
要 能 从 数组 的 各 个 片段 中 产生 单个 值 〈 即 约 简 ) 。 比 如 说 ， 当 我 们 用 rolling_quantile 计 算 祥 本 
分 位 数 时 ， 可 能 对 样本 中 特定 值 的 百 分 等 级 感 兴 趣 。scipy.stats.percentileofscore 函 数 就 能 达 
到 这 个 目的 : 
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图 10-14 : AAPL 2% 回 报 率 的 百 分 等 级 (一 年 窗口 期 ) 


In [578]: from scipy.stats import percentileofscoreln [579]: score_at 2percent = lambda x: 
percentileofscore(x, 0.02)In [580]: result = pd.rolling_apply(returns.AAPL., 250, 
score_at 2percent)In [581]: result.plot() 


译注 8 : 这 是 针对 窗口 而 言 的 ， 即 一 个 窗口 里 面 必须 有 多 少 个 非 NA 值 。 


译注 9 : 不 设置 就 全 空 ， 也 不 太 大 ， 大 了 就 无 意义 了 。 
译注 10 

: 就 是 不 加 权 的 普通 移动 平均 。 

性 能 和 内 存 使 用 方面 的 注意 事项 


Timestamp 和 Period 都 是 以 64 位 整数 表示 的 〈 即 NumPy 的 datetime64 数 据 类 型 ) 。 也 就 是 
说 ， 对 于 每 个 数据 点 ， 其 时 间 戳 需要 占用 8 字 节 的 内 存 。 因 此 ， 含 有 一 百 万 个 float64 数 据点 时 
间 序 列 需 要 占用 大 约 16MB 的 内 存 空间 。 由 于 pandas 会 尽量 在 多 个 时 间 序 列 之 间 共 享 索 引 ， 所 
以 创建 现 有 时 间 序 列 的 视图 不 会 占用 更 多 内 存 译注 11。 此 外 ， 低 频率 索引 (日 以 上 ) 会 被 存 
放 在 一 个 中 心 缓存 中 ， 所 以 任何 固定 频率 的 索引 都 是 该 日 期 缓存 的 视图 。 所 以 ， 如 果 你 有 一 
个 很 大 的 低频 率 时 间 序 列 ， 索 引 所 占用 的 内 存 空间 将 不 会 很 大 。 


性 能 方面 ，pandas 对 数据 对 齐 〈 两 个 不 同 素 引 的 ts1+ts2 的 幕后 工作 ) 和 重 采样 运算 进行 了 高 
度 优 化 。 下 面 这 个 例子 将 一 亿 个 数据 点 聚合 为 OHLC : 


In [582]: rng = pd.date_range('1/1/2000", periods=10000000, freq='10ms')In [583]: ts = 
Series(np.random.randn(len(rng)), index=rng)In [584]: tsOut[584]:2000-01-01 00:00:00 
-1.4022352000-01-01 00:00:00.010000 2.4246672000-01-01 00:00:00.020000 
-1.9560422000-01-01 00:00:00.030000 -0.897339...2000-01-02 03:46:39.960000 
0.4955302000-01-02 03:46:39.970000 0.5747662000-01-02 03:46:39.980000 
1.3483742000-01-02 03:46:39.990000 0.665034Freq: 10L, Length: 10000000In [585]: 
ts.resample('15min', how='ohlc)Out[585]:Datetimelndex: 113 entries, 2000-01-01 00:00:00 
to 2000-01-02 04:00:00Freq: 15TData columns:open 113 non-null valueshigh 113 non-null 
valueslow 113 non-null valuesclose 113 non-null valuesdtypes: float64(4)In [586]: %timeit 
ts.resample(15min', how='ohlc')10 loops, best of 3: 61.1 ms per loop 


运行 时 间 跟 聚合 结果 的 相对 大 小 有 一 定 关 系 ， 越 高 频率 的 聚合 所 耗费 的 时 间 越 多 : 


In [587]: rng = pd.date_range('1/1/2000", periods=10000000, freq="'1s')In [588]: ts = 
Series(np.random.randn(len(rng)), index=rngjln [589]: %timeit ts.resample('15s,, 
how='ohIc')1 loops, best of 3: 88.2 ms per loop 


可 能 在 你 阅读 本 书 的 时 候 ， 这 些 算法 的 性 能 已 经 大 为 改进 了 。 上 比如 说 ， 目 前 并 没有 对 规则 频 
率 之 间 的 转换 做 任何 优化 ， 但 这 肯定 是 要 做 的 。 


译注 11 : 原文 就 是 这 么 表达 的 。 我 感到 很 不 解 ， 既 然 是 视图 ， 当 然 不 会 占用 多 少 内 容 ， 毕 竟 
就 是 比 单个 指针 大 点 的 东西 而 已 。 结 合 上 下 文 来 看 ， 估 计 说 的 只 是 索引 的 问题 。 


第 11 章 ”金融 和 经 济 数 据 应 用 


从 2005 年 开始 ，Python 在 金融 行业 中 的 应 用 越 来 越 多 ， 这 主要 得 益 于 众多 成 熟 的 函数 库 
(NumPy 和 pandas) 以 及 大 量 经 验 丰 富 的 Python 程 序 员 。 许 多 机 构 都 发 现 Python 不 仅 非 常 适 
成 为 交互 式 的 分 析 环 境 ， 也 非常 适合 开发 稳健 的 系统 ， 而 且 所 需 的 时 间 比 Java 或 C++ 少 得 


多 。Python 还 是 一 种 非常 好 的 粘 合 屋 ， 可 以 非常 轻松 地 为 C 或 C++ 编写 的 库 构 建 Python 接 口 。 


金融 分 析 领 域 的 内 容 博大 精深 ， 其 至 拿 一 整 本 书 来 讲 都 不 为 过 ， 在 这 里 我 只 是 希望 告诉 你 如 
何 利用 本 书 中 的 工具 去 解决 金融 领域 中 的 一 些 特殊 问题 。 跟 其 他 的 研究 和 分 析 领 域 一 样 ， 在 
数据 规整 化 方面 所 花费 的 精力 常常 会 比 解 决 核心 建 模 和 研究 问题 所 花费 的 要 多 得 多 。 就 是 因 
为 找 不 到 合适 的 数据 处 理工 具 ， 所 以 我 地 在 2008 年 开始 创立 pandas 的 。 


在 本 章 的 示例 中 ， 我 将 使 用 术语 “截面 ”(cross-section) 来 表示 某 个 时 间 点 的 数据 。 例 如 ， 标 
准 普 尔 500 指 数 中 所 有 成 分 股 在 特定 日 期 的 收 锅 价 就 形成 了 一 个 截面 。 多 个 数据 项 (例如 价格 
和 成 交 量 ) 在 多 个 时 间 点 的 截面 数据 就 构成 了 一 个 面板 (panel) 。 面 板 数据 既 可 以 被 表示 为 
层次 化 素 引 的 DataFrame， 也 可 以 被 表示 为 三 维 的 Panel pandas 对 象 。 


数据 规整 化 方面 的 话题 


前 面 几 章 中 陆 陆 续 续 介绍 过 一 些 不 错 的 数据 规整 化 工具 。 这 里 ， 我 将 着 重 介绍 一 些 跟 金 融 问 
题 域 有 关 的 话题 。 


时 间 序 列 以 及 截面 对 齐 


在 处 理 金融 数据 时 ， 最 费 神 的 一 个 问题 就 是 所 谓 的 "数据 对 齐 ”(data alignment) 问题 。 两 个 
相关 的 时 间 序 列 的 索引 可 能 没有 很 好 的 对 齐 ， 或 两 个 DataFrame 对 象 可 能 含有 不 匹配 的 列 或 
行 。MATLAB、R 以 及 其 他 矩阵 编程 语言 的 用 户 常常 需要 花费 大 量 的 精力 将 数据 规整 化 为 完全 
对 齐 的 形式 。 以 我 的 经 验 来 看 ， 手 工 处 理 数据 对 齐 问 题 是 一 件 合 人 非常 俘 闷 的 工作 ， 而 验证 
数据 是 否 对 齐 则 还 要 更 郁闷 一 些 。 不 仅 如 此 ， 合 并 未 对 齐 的 数据 还 很 有 可 能 带 来 各 种 bug。 


pandas 可 以 在 算术 运算 中 自动 对 齐 数据 。 在 实际 工作 当中 ， 这 不 仅 能 为 你 带 来 极 大 的 自由 
度 ， 而 且 还 能 提高 你 的 工作 效率 。 来 看 下 面 这 两 个 DataFrame， 它 们 分 别 含 有 股票 价格 和 成 
交 量 的 时 间 序 列 译注 1 : 


In [16]: pricesOut[16]: AAPL JNJ SPX XOM2011-09-06 379.74 64.64 1165.24 71.152011-09- 
07 383.93 65.43 1198.62 73.652011-09-08 384.14 64.95 1185.90 72.822011-09-09 377.48 
63.64 1154.23 71.012011-09-12 379.94 63.59 1162.27 71.842011-09-13 384.62 63.61 
1172.87 71.652011-09-14 389.30 63.73 1188.68 72.64In [17]: volumeOut[17]: AAPL JNJ 
XOM2011-09-06 18173500 15848300 254163002011-09-07 12492000 10759700 
231084002011-09-08 14839800 15551500 224348002011-09-09 20171900 17008200 
279691002011-09-12 16697300 13448200 26205800 


假设 你 想 要 用 所 有 有 效 数据 计算 一 个 成 交 量 加 权 平 均 价格 (为 了 简单 起 见 ， 假 设 成 交 量 数据 
是 价格 数据 的 子 集 ) 。 由 于 pandas 会 在 算术 运算 过 程 中 自动 将 数据 对 齐 ， 并 在 sum 这 样 的 画 
数 中 排除 缺失 数据 ， 所 以 我 们 只 需 编写 下 面 这 条 简洁 的 表达 式 即 可 : 


In [18]: prices volume Out[18]: AAPL JNJ SPX XOM2011-09-06 6901204890 1024434112 
NaN 18083697452011-09-07 4796053560 704007171 NaN 170193366020711-09-08 
5700560772 1010069925 NaN 1633702136207171-09-09 7614488812 1082401848 NaN 
19860857912011-09-12 6343972162 855171038 NaN 18826246722011-09-13 NaN NaN 


NaN NaN2011-09-14 NaN NaN NaN NaNln [19]: vwap = (prices volume).sum()/ 
volume.sum()In [20]: vwap In [21]: vwap.dropna()Out[20]: Out[21]:AAPL 380.655181 AAPL 
380.655181JNJ 64.394769 JNJ 64.394769SPX NaN XOM 72.024288XOM 72.024288 


由 于 SPX 在 volume 中 找 不 到 ， 所 以 你 随时 可 以 显 式 地 将 其 丢弃 。 如 果 希 望 手工 进行 对 齐 ， 可 
以 使 用 DataFrame 的 align 方 法 ， 它 返回 的 是 一 个 元 组 ， 含 有 两 个 对 象 的 重 素 引 版 本 : 


In [22]: prices.align(volume, join='inner)Out[22]:( AAPL JNJ XOM2011-09-06 379.74 64.64 
71.152011-09-07 383.93 65.43 73.652011-09-08 384.14 64.95 72.822011-09-09 377.48 
63.64 71.012011-09-12 379.94 63.59 71.84, AAPL JNJ XOM2011-09-06 18173500 
15848300 254163002011-09-07 12492000 10759700 231084002011-09-08 14839800 
15551500 224348002011-09-09 20171900 17008200 279691002011-09-12 16697300 
13448200 26205800) 


另 一 个 不 可 或 缺 的 功能 是 ， 通 过 一 组 索引 可 能 不 同 的 Series 构 建 一 个 DataFrame。 


In [23]: s1 = Series(range(3), index=['a, 'b", 'c'])In [24]: s2 = Series(range(4), index=["d，b， 
'c', 'e'])In [25]: s3 = Series(range(3), index=[f, 'a', 'c'])In [26]: DataFrame({(one': s1, 'two': s2, 
three': s3})Out[26]: one three twoa 0 1 NaNb 1 NaN 1c 2 2 2d NaN NaN Oe NaN NaN 3f 


NaN 0 NaN 
跟前 面 一 样 ， 这 里 也 可 以 显 式 定义 结果 的 索引 (丢弃 其 余 的 数据 ) 


In [27]: DataFrame({one': s1, 'two': s2, 'three': s3}), index=list(face'))Out[27]: one three twof 
NaN 0 NaNa 0 1 NaNc 2 2 2e NaN NaN3 


频率 不 同 的 时 间 序 列 的 运算 


经 济 学 时 间 序 列 常常 有 着 按 年 、 季 、 月 、 日 计算 的 或 其 他 更 特殊 的 频率 。 有 些 完全 就 是 不 规 
则 的 ， 比 如 说 ， 鳃 利 预 测 调整 随时 都 可 能 会 发 生 。 频 率 转换 和 重 对 齐 的 两 大 主要 工具 是 
resample 和 reindex 方 法 。resample 用 于 将 数据 转换 到 固定 频率 ， 而 reindex 则 用 于 使 数据 符合 
一 个 新 素 引 。 它 们 都 支持 插值 (如 前 向 填充 ) 逻辑 。 


来 看 一 个 简单 的 周 型 时 间 序 列 : 


In [28]: ts1 = Series(np.random.randn(3), .… index=pd.date_range(2012-6-13, periods=3, 
freq="W-WED'))In [29]: ts1Out[29]:2012-06-13 -1.1248012012-06-20 0.4690042012-06-27 
-0.117439Freq: W-WED 


如 果 将 其 重 采样 到 工作 日 (星期 一 到 星期 五 ) 频 率 ， 则 那些 没有 数据 的 日 子 就 会 出 现 一 个 “ 空 
洞 ”: 


In [30]: ts1.resample(BJOut[30]:2012-06-13 -1.1248012012-06-14 NaN2012-06-15 
NaN2012-06-18 NaN2012-06-19 NaN2012-06-20 0.4690042012-06-21 NaN2012-06-22 
NaN2012-06-25 NaN2012-06-26 NaN2012-06-27 -0.117439Freq: B 


当然 ， 只 _method 设 置 为 fi 证 即 可 用 前 面 的 值 填充 这 些 空白 。 处 理 较 低频 率 的 数据 时 常 
常 这 么 干 ， 最 终结 果 中 各 时 间 点 都 有 一 个 最 新 的 有 效 值 : 


In [31]: ts1.resample(CB ， fill_method="ffill)Out[31]:2012-06-13 -1.1248012012-06-14 
-1.1248012012-06-15 -1.1248012012-06-18 -1.1248012012-06-19 -1.1248012012-06-20 
0.4690042012-06-21 0.4690042012-06-22 0.4690042012-06-25 0.4690042012-06-26 
0.4690042012-06-27 -0.117439Freq: B 


在 实际 工作 当中 ， 将 较 低频 率 的 数据 升 采样 到 较 高 的 规整 频率 是 一 种 不 错 的 解决 方案 ， 但 是 
对 于 更 一 般 化 的 不 规整 时 间 序列 可 能 就 不 太 合 适 了 。 看 看 下 面 这 个 不 规整 样本 的 时 间 序 列 
(各 时 间 点 更 一 般 化 ) 


In [32]: dates = pd.Datetimelndex([2012-6-12", '2012-6-17', '2012-6-18", ...: '2012-6-21，， 
'2012-6-22", '2012-6-29'])In [33]: ts2 = Series(np.random.randn(6), index=dates)ln [34]: 
ts2Out[34]:2012-06-12 -0.4494292012-06-17 0.4596482012-06-18 -0.1725312012-06-21 
0.8359382012-06-22 -0.5947792012-06-29 0.027197 


如 果 要 将 ts1 中 “最 当前 ”的 值 ( 即 前 向 填充 ) 加 到 ts2 上 。 一 个 办 法 是 闻 两 者 重 采样 为 规整 频率 
后 再 相 加 ， 但 是 如 果 想 维持 ts2 中 的 日 期 索引 ， 则 reindex 会 是 一 种 更 好 的 解决 方案 : 


In [35]: ts1.reindex(ts2.index, method='ffil)Out[35]:2012-06-12 NaN2012-06-17 
-1.1248012012-06-18 -1.1248012012-06-21 0.4690042012-06-22 0.4690042012-06-29 
-0.117439In [36]: ts2 + ts1.reindex(ts2.index, method='ffil)Out[36]:2012-06-12 NaN2012-06- 
17 -0.6651532012-06-18 -1.2973322012-06-21 1.3049422012-06-22 -0.1257752012-06-29 
-0.090242 


使 用 Period 


Period (表示 时 间 区 间 ) 提供 了 另 一 种 义理 不 同 频率 时 间 序 列 的 办 法 ， 尤 其 是 那些 有 着 特殊 规 
范 的 以 年 或 季度 为 频率 的 金融 或 经 济 序列 。 比 如 说 ， 一 个 公司 可 能 会 发 布 其 以 6 月 结尾 的 财 年 
的 每 季度 鳃 利 报告 ， 即 闫 率 为 Q-JUN。 来 看 两 个 有 关 GDP 和 通货 膨胀 的 宏观 经 济 时 间 序 列 : 


In [37]: gdp = Series([1.78, 1.94, 2.08, 2.01, 2.15, 2.31, 2.46], ...: 
index=pd.period_range('1984Q2'", periods=7, freq='Q-SEP'))In [38]: infl = Series([0.025, 
0.045, 0.037, 0.04], ...: index=pd.period_range('1982', periods=4, freq='"A-DEC'))In [39]: gdp 
In [40]: inflOut[39]: Out[40]:1984Q2 1.78 1982 0.0251984Q3 1.94 1983 0.0451984Q4 2.08 
1984 0.0371985Q1 2.01 1985 0.0401985Q2 2.15 Freq: A-DEC1985Q3 2.311985Q4 
2.46Freq: Q-SEP 


跟 Timestamp 的 时 间 序 列 不 同 ， 由 Period 素 引 的 两 个 不 同 频 率 的 时 间 序 列 之 间 的 运算 必须 进行 
显 式 转换 。 在 本 例 中 ， 假 设 已 知 infl 值 是 在 每 年 年 末 观 测 的 ， 于 是 我 们 就 可 以 将 其 转换 到 Q- 
SEP 以 得 到 该 频率 下 的 正确 时 期 : 


In [41]: infl_q = infl.asfreq(Q-SEP', how='end')In [42]: infl_qOut[42]:1983Q1 0.0251984Q1 
0.0451985Q1 0.0371986Q1 0.040Freq: Q-SEP 


然后 这 个 时 间 序 列 就 可 以 被 重 索 引 了 (使 用 前 向 填充 以 匹配 gdp) : 


In [43]: infl_q.reindex(gdp.index, method="ffill )Out[43]:1984Q2 0.0451984Q3 0.0451984Q4 
0.0451985Q1 0.0371985Q2 0.0371985Q3 0.0371985Q4 0.037Freq: Q-SEP 


时 间 和 "最 当前 "数据 选取 


假设 你 有 一 个 很 长 的 盘 中 市 场 数据 时 间 序 列 ， 现 在 希望 抽取 其 中 每 天 特定 时 间 的 价格 数据 。 
如 果 数 据 不 规整 (观测 值 没 有 精确 地 落 在 期 望 的 时 间 点 上 ) ， 该 怎么 办 ?在 实际 工作 当中 ， 
如 果 不 够 小 心 仔细 的 话 ， 很 容易 导致 错误 的 数据 规整 化 。 看 看 下 面 这 个 例子 


生成 一 个 交易 日 内 的 日 期 范围 和 时 间 序 列 译注 
2In [44]: rng = pd.date_range(2012-06-01 
09:30' '2012-06-01 15:59', freq='T'")# 生成 5 
天 的 时 间 点 (9:30~15:59 之 间 的 值 ) In [45]: 
rng = rng.append([rng + pd.offsets.BDay!(i) 
for i in range(1, 4)])In [46]: ts = 
Series(np.arangel(len(rng), dtype=float), 
index=rng)ln [47]: tsOut[47]:2012-06-01 
09:30:00 02012-06-01 09:31:00 12012-06-01 
09:32:00 22012-06-01 09:33:00 3...2012-06- 
06 15:56:00 15562012-06-06 15:57:00 
15572012-06-06 15:58:00 15582012-06-06 
15:59:00 1559Length: 1560 


利用 Python 的 datetime.time 对 象 进行 素 引 即 可 抽取 出 这 些 时 间 点 上 的 值 : 


In [48]: from datetime import timeln [49]: ts[time(10, 0)]Out[49]:2012-06-01 10:00:00 302012- 
06-04 10:00:00 4202012-06-05 10:00:00 8102012-06-06 10:00:00 1200 


实际 上 ， 该 操作 用 到 了 实例 方法 at_time (各 时 间 序 列 以 及 类 似 的 DataFrame 对 象 都 有 ) : 


In [50]: ts.at_time(time(10, 0))Out[50]:2012-06-01 10:00:00 302012-06-04 10:00:00 
4202012-06-05 10:00:00 8102012-06-06 10:00:00 1200 


还 有 一 个 between_time 方 法 ， 它 用 于 选取 两 个 Time 对 象 之 间 的 值 : 


In [S51]: ts.between time(time(10, 0), time(10, 1))Out[51]:2012-06-01 10:00:00 302012-06-01 
10:01:00 312012-06-04 10:00:00 4202012-06-04 10:01:00 4212012-06-05 10:00:00 
8102012-06-05 10:01:00 8112012-06-06 10:00:00 12002012-06-06 10:01:00 1201 


正如 之 前 提 到 的 那样 ， 可 能 刚好 就 没有 任何 数据 落 在 某 个 具体 的 时 间 上 (比如 上 午 10 点 ) 。 
这 时 ， 你 可 能 会 希望 得 到 上 午 10 点 之 前 最 后 出 现 的 那个 值 : 


将 该 时 间 序 列 的 大 部 分 内 容 随机 设置 为 NAIn 
[53]: indexer = 
np.sort(np.random.permutation(len(ts)) 
[700:])In [54]: irr_ts = ts.copy(ln [55]: 
irr_ts[indexer] = np.nanln [56]: irr_ts['2012- 
06-01 09:50 :2012-06-01 
10:00']Out[56]:2012-06-01 09:50:00 
NaN2012-06-01 09:51:00 NaN2012-06-01 
09:52:00 222012-06-01 09:53:00 NaN2012- 
06-01 09:54:00 242012-06-01 09:55:00 
NaN2012-06-01 09:56:00 262012-06-01 
09:57:00 272012-06-01 09:58:00 282012-06- 
01 09:59:00 292012-06-01 10:00:00 NaN 


如 果 将 一 组 Timestamp 传 入 asof 方 法 ， 就 能 得 到 这 些 时 间 点 处 (或 其 之 前 最 近 ) 的 有 效 值 ( 非 
NA) 。 例 如 ， 我 们 构造 一 个 日 期 范围 (每 天 上 午 10 点 ) ， 然 后 将 其 传人 asof : 


In [57]: selection = pd.date_range(2012-06-01 10:00", periods=4, freq='B')In [58]: 
irr_ts.asof(selection)Out[58]:2012-06-01 10:00:00 292012-06-04 10:00:00 4192012-06-05 
10:00:00 8102012-06-06 10:00:00 1198Freq: B 


拼接 多 个 数据 源 


在 第 7 章 中 ， 我 介绍 了 一 些 合并 两 个 相关 数据 集 的 办 法 。 在 金融 或 经 济 领域 中 ， 还 有 另外 几 个 
经 常 出 现 的 情况 : 


:在 一 个 特定 的 时 间 点 上 ， 从 一 个 数据 源 切换 到 另 一 个 数据 源 。 
' 用 另 一 个 时 间 序 列 对 当前 时 间 序列 中 的 缺失 值 " 打 补丁 "。 


.将 数据 中 的 符号 〈 国 家 、 资 产 代码 等 ) 替换 为 实际 数据 。 


对 于 第 一 种 情况 ， 在 特定 时 刻 从 一 个 时 间 序 列 切换 到 另 一 个 ， 其 实 就 是 用 pandas.concat 闻 两 
个 TimeSeries 或 DataFrame 对 象 合并 到 一 起 : 


In [59]: data1 = DataFrame(np.ones((6, 3), dtype=float), ...: columns=['a', 'b", 'c"], ...: 
index=pd.date_range(6/12/2012', periods=6))In [60]: data2 = DataFrame(np.ones((6, 3), 
dtype=float) * 2, ...: columns=['a', 'b", 'c'], ...: index=pd.date_range('6/13/2012', periods=6))In 
[61]: spliced = pd.concat([data1.ix[:"2012-06-14'], data2.ix[2012-06-15":]])In [62]: 
splicedOut[62]: a b c2012-06-12 1 1 12012-06-13 1 1 12012-06-14 1 1 12012-06-15 2 2 
22012-06-16 2 2 22012-06-17 2 2 22012-06-18222 


再 看 另 一 个 简单 的 例子 ， 假 设 data1 缺 失 了 data2 中 存在 的 某 个 时 间 序 列 : 


In [113]: data2 = DataFrame(np.ones((6, 4), dtype=float) * 2, .… columns=['a', 'b', 'c', 'd"], ...: 
index=pd.date_range(6/13/2012', periods=6))In [64]: spliced = pd.concat([data1.ix[:"2012- 
06-14'], data2.ix["2012-06-15":]])In [65]: splicedOut[65]: a b c d2012-06-12 1 1 1 NaN2012- 
06-13 1 11NaN2012-06-14 1 1 1 NaN2012-06-15 2 2 2 22012-06-16 2 2 2 22012-06-17 2 2 
2 22012-06-182222 


combine_first 可 以 引入 合并 点 之 前 的 数据 ， 这 样 也 就 扩展 了 'd' 项 的 历史 : 


In [66]: spliced filled = spliced.combine first(data2)In [67]: spliced filledOut[67]:a bc 
d2012-06-12 111NaN2012-06-13 11 1 22012-06-14 1 1 1 22012-06-15 2 2 2 22012-06-16 
22222012-06-17 2 2 2 22012-06-18 2222 


由 于 data2 没 有 关于 2012-06-12 的 数据 ， 所 以 也 就 没有 值 被 填充 到 那 一 天 。 


DataFrame 也 有 一 个 类 似 的 方法 update， 它 可 以 实现 就 地 更 新 。 如 果 只 想 填充 空洞 ， 则 必须 
en 行 : 


In [68]: spliced.update(data2, overwrite=False)ln [69]: splicedOut[69]: ab c d2012-06-12 1 1 
1 NaN2012-06-13 1 1122012-06-14 1 1 1 22012-06-15 2 2 2 22012-06-16 2 2 2 22012-06- 
17 22222012-06-182222 


上 面 所 讲 的 这 些 技术 都 可 实现 将 数据 中 的 符号 替换 为 实际 数据 ， 但 有 时 利用 DataFrame 的 卖 
引 机 制 直 接 对 列 进 行 设置 会 更 简单 一 些 : 


In [70]: cp_spliced = spliced.copy(ln [71]: cp_splicedlI['a', 'c]] = data1[[a，c]]ln [72]: 
cp_splicedOut[72]: ab c d2012-06-12 111NaN2012-06-13 1 1 1 22012-06-14 1 1 1 22012- 
06-15 1 2 1 22012-06-16 1 2 1 22012-06-17 1 2 1 22012-06-18 NaN 2 NaN 2 


收益 指数 和 累计 收益 


在 金融 领域 中 ， 收 益 (return) 通常 指 的 是 某 资产 价格 的 百分比 变化 。 我 们 来 看 看 2011 年 到 
2012 年 间 荣 果 公 司 的 股票 价格 数据 译注 3 : 


In [73]: import pandas.io.data as webln [74]: price = web.get_data_yahoo(AAPL', '2011-01- 
01")[Adi Close']In [75]: price[-5:]Out[75]:Date2012-07-23 603.832012-07-24 600.922012-07- 
25 574.972012-07-26 574.882012-07-27 585.16Name: Adj Close 


对 于 茶 果 公司 的 股票 (没有 股息 

译注 4 

) ， 计 算 两 个 时 间 点 之 间 的 累计 百分比 回报 只 需 计 算 价格 的 百分比 变化 即 可 : 

In [76]: price[2011-10-03'] / price[2011-3-01] - 1Out[76]: 0.072399874037388123 


对 于 其 他 那些 派发 股息 的 股票 ， 要 计算 你 在 某 只 股票 上 赚 了 多 少 钱 就 比较 复 人 了。 不 过 ， 这 
里 所 使 用 的 已 调整 收盘 价 已 经 对 拆 分 和 股息 做 出 了 调整 。 不 管 什么 样 的 情况 ， 通 常 都 会 先 算 
出 一 个 收益 指数 ， 它 是 一 个 表示 单位 投资 〈 比 如 1 美元 ) 收益 的 时 间 序 列 。 从 收益 指数 中 可 以 
得 出 许多 假设 。 例 如 ， 人 们 可 以 决定 是 否 进行 利润 再 投资 。 对 于 葵 果 公司 的 情况 ， 我 们 可 以 
利用 cumprod 计 算出 一 个 简单 的 收益 指数 : 


In [77]: returns = price.pct_change(Wln [78]: ret index = (1 + returns).cumprod()In [79]: 
ret index[0] = 1# 将 第 一 个 值 设置 为 1In [80]: ret indexOut[80]:Date2011-01-03 
1.0000002011-01-04 1.0052192011-01-05 1.0134422011-01-06 1.012623...2012-07-24 
1.8233462012-07-25 1.7446072012-07-26 1.7443342012-07-27 1.775526Length: 396 


得 到 收益 指数 之 后 ， 计 算 指定 时 期 内 的 累计 收益 就 很 简单 了 : 


In [81]: m_returns = ret_index.resample('BM'", how='last).pct_change()ln [82]: 
m_returns[2012]oOut[82]:Date2012-01-31 0.1271112012-02-29 0.1883112012-03-30 
0.1052842012-04-30 -0.0259692012-05-31 -0.0107022012-06-29 0.0108532012-07-31 
0.001986Freq: BM 


当然 了 ， 就 这 个 简单 的 例子 而 言 〈 没 有 股息 也 没有 其 他 需要 考虑 的 调整 ) ， 上 面 的 结果 也 能 
通过 重 采样 聚合 (这 里 聚合 为 时 期 ) 从 日 百分比 变化 中 计算 得 出 : 


In [83]: m_rets = (1 + returns).resample('M', how="prod', kind="period') - 1In [84]: 
m_rets['2012']Out[84]:Date2012-01 0.1271112012-02 0.1883112012-03 0.1052842012-04 
-0.0259692012-05 -0.0107022012-06 0.0108532012-07 0.001986Freq: M 


如 果 知 道 了 股息 的 派发 日 和 支付 率 ， 就 可 以 将 它们 计 入 到 每 日 总 收益 中 ， 如 下 所 示 : 
returns[dividend_dates] += dividend_pcts 

译注 1 

: 此 处 代码 不 完整 ， 需 要 加 载 ch11 的 两 个 csv 文 件 ， 然 后 和 作 处 理 即 可 得 到 这 里 所 需 的 素材 。 
译注 2 


: 这 里 生成 的 只 是 索引 ， 没 有 时 间 序 列 。 


译注 3 : 直接 使 用 这 段 代 码 获 取 的 数据 会 多 很 多 ， 因 没有 截止 日 期 ， 建 议 使 用 
price=web.get_data_yahoo('AAPL','2011-01-01''2012-07-27'")['Adj Close'"]。 此 外 ， 由 于 这 里 
获取 的 是 Adj Close， 所 以 数据 本 身 也 会 有 一 些 不 同 。 


译注 4 
。 现在 已 经 派 过 才 股 息 了 
分 组 变换 和 分 析 


在 第 9 章 中 ， 我 们 学 习 了 组 统计 计算 的 基础 知识 ， 还 学 习 了 如 何 对 数据 集 的 分 组 应 用 自 定义 的 
变换 图 数 。 


下 面 以 一 组 假想 的 股票 投资 组 合 为 例 。 首 先 我 随机 生成 1000 个 股票 代码 : 


import random; random.seed(0)import stringN = 1000def rands(n): choices = 
string.asciiuppercase return ".join([random.choice(choices) for in xrange(n)])tickers = 
np.array([rands(5) for _ in xrange(N)]) 


然后 创建 一 个 含有 3 列 的 DataFrame 来 承载 这 些 假想 数据 ， 不 过 只 选择 部 分 股票 组 成 该 投资 组 


人 人， 
口 


M = 500df = DataFrame({Momentum' : np.random.randn(M) / 200 + 0.03, "Value': 
np.random.randn(M) / 200 + 0.08, 'Shortlnterest : np.random.randn(M) / 200 - 0.02), 
index=tickers[:M]) 


接 下 来 ， 我 们 为 这 些 股票 随机 创建 一 个 行业 分 类 。 为 了 简单 起 见 ， 我 只 选用 了 两 个 行业 ， 并 
将 映射 关系 保存 在 Series 中 : 


ind_names = np.array([FINANCIAL', TECHJ])sampler = np.random.randint(0， 
len(ind_names), N)industries = Series(ind_names[sampler], index=tickers, name="'industry') 


现在 ， 我 们 就 可 以 根据 行业 分 类 进行 分 组 并 执行 分 组 聚合 和 变换 了 : 


In [90]: by_industry = df.groupby(industries)ln [91]: by_industry.mean()Out[91]: Momentum 
Shortlnterest ValueindustryFINANCIAL 0.029485 -0.020739 0.079929TECH 0.030407 
-0.019609 0.080113In [92]: by_industry.describe()Out[92]: Momentum Shortlnterest 
ValueindustryFINANCIAL count 246.000000246.000000 246.000000 mean 0.029485 
-0.020739 0.079929 std 0.004802 0.004986 0.004548 min 0.017210 -0.036997 0.067025 
25% 0.026263 -0.024138 0.076638 50% 0.029261 -0.020833 0.079804 75% 0.032806 
-0.017345 0.082718 max 0.045884 -0.006322 0.093334TECH count 254.000000 
254.000000 254.000000 mean 0.030407 -0.019609 0.080113 std 0.005303 0.005074 
0.004886 min 0.016778 -0.032682 0.065253 25% 0.026456 -0.022779 0.076737 50% 
0.030650 -0.019829 0.080296 75% 0.033602 -0.016923 0.083353 max 0.049638 -0.003698 
0.093081 


要 对 这 些 按 行业 分 组 的 投资 组 合 进行 各 种 变换 ， 我 们 可 以 编写 自 定义 的 变换 图 数 。 例 如 行业 
内 标准 化 处 理 ， 它 广泛 用 于 股票 资产 投资 组 合 的 构建 过 程 : 


行业 内 标准 化 处 理 def zscore(group): return 
(group - group.mean())/ 
group.std()df_stand = 
by_industry.apply(zscore) 


这 样 处 理 之 后 ， 各 行业 的 平均 值 为 0， 标 准 差 为 1 : 


In [94]: df_stand.groupby(industries).agg(['mean,', 'std'])Out[94]: Momentum Shortlnterest 
Value mean std mean std mean stdindustryFINANCIALO 10 10 1TECH -01-01-01 


内 置 变 换 画 数 (如 rank) 的 用 法 会 更 简洁 一 些 : 


行业 内 降序 排名 In [95]: ind_rank = 
by_industry.rank(ascending=False)In [96]: 
ind_rank.groupby(industries).agg([ min,, 
‘max'])Out[96]: Momentum Shortinterest 
Value min max min max min 
maxindustryFINANCIAL 1 246 1 246 1 
246TECH 1 254 1 254 1 254 


在 股票 投资 组 合 的 定量 分 析 中 , “排名 和 标准 化 ”是 一 种 很 常见 的 变换 运算 组 合 。 通 过 将 rank 和 
Zscore 链 接 在 一 起 即 可 完成 整个 变换 过 程 ， 就 像 下 面 这 样 : 


行业 内 排名 和 标准 化 In [97]: 
by_industry.apply(lambda x: 
zscore(x.rank()))Out[97]:Index: 500 entries, 
VTKGN to PTDQEData 
columns:Momentum 500 non-null 


valuesShortinterest 500 non-null 
valuesValue 500 non-null valuesdtypes: 
float64(3) 


分 组 因子 暴露 


因子 分 析 (factor analysis) 是 投资 组 合 定量 管理 中 的 一 种 技术 。 投 资 组 合 的 持 有 量 和 性 能 
(收益 与 损失 ) 可 以 被 分 解 为 一 个 或 多 个 表示 投资 组 合 权 重 的 因子 (风险 因子 就 是 其 中 之 
一 ) 。 例 如 ， 某 只 股票 的 价格 与 某 个 基准 (比如 标准 普尔 500 指 数 ) 的 协 动 性 被 称 作 其 贝塔 风 
险 系 数 (beta， 一 种 常见 的 风险 因子 ) 。 下 面 以 一 个 人 为 构成 的 投资 组 合 为 例 进行 讲解 ， 它 
由 三 个 随机 生成 的 因子 (通常 称 为 因子 载荷 ) 和 一 些 权重 构成 : 


from numpy.random import randfac1, fac2, fac3 = np.random.rand(3, 1000)ticker_subset = 
tickers.take(np.random.permutation(N)[:1000])# 因子 加 权 和 以 及 噪声 port = Series(0.7 1ac1 - 
1.2fac2 + 0.3*fac3 + rand(1000), index=ticker_ subset)factors = DataFrame({f1": fac1, f2": 
fac2, f3' fac3}, index=ticker_ subset) 


各 因子 与 投资 组 合 之 间 的 矢量 相关 性 可 能 说 明 不 了 什么 问题 : 
In [99]: factors.corrwith(port)Out[99]:f1 0.402377f2 -0.680980f3 0.168083 


计算 因子 暴露 的 标准 方式 是 最 小 二 乘 回 为 。 使 用 pandas.ols (将 factors 作 为 解释 变量 ) 即 可 计 
算出 整个 投资 组 合 的 暴露 : 

In [100]: pd.ols(y=port, x=factors).betaOut[100]:f1 0.761789f2 -1.208760f3 
0.289865intercept 0.484477 

不 难看 出 ， 由 于 没有 给 投资 组 合 添加 过 多 的 随机 噪声 ， 所 以 原始 的 因子 权重 基本 上 可 算是 恢 
复出 来 了 。 还 可 以 通过 groupby 计 算 各 行业 的 暴露 量 。 为 了 达到 这 个 目的 ， 我 先 编写 了 一 个 画 
数 ， 如 下 所 示 : 

def beta_exposure(chunk, factors=None): return pd.ols(y=chunk, x=factors).beta 


然后 根据 行业 进行 分 组 ， 并 应 用 该 画 数 ， 传 人 因子 载荷 的 DataFrame : 


In [102]: by_ind = port.groupby(industries)jln [103]: exposures = 
by_ind.apply(beta_exposure, factors=factors)ln [104]: exposures.unstack()Out[104]: f1 f2 f3 
interceptindustryFINANCIAL 0.790329 -1.182970 0.275624 0.455569TECH 0.740857 
-1.232882 0.303811 0.508188 


十 分 位 和 四 分 位 分 析 


基于 样本 分 位 数 的 分 析 是 金融 分 析 羡 们 的 另 一 个 重要 工具 。 。 如 ， 股 票 投资 组 合 的 性 能 可 以 
根据 各 股 的 市 县 率 被 划分 入 四 分 位 (四 个 大 小 相等 的 块 )。 通 过 pandas.qcut 和 groupby 可 以 
非常 轻松 地 实现 分 位 数 分 析 。 


在 下 面 这 个 例子 中 ， 我 们 利用 跟随 策略 或 动量 交易 策略 通过 SPY 交 易 所 交易 基金 买卖 标准 普 
尔 500 指 数 。 你 可 以 从 YahoolFinance 下 载 价格 历史 : 


In [105]: import pandas.io.data as webln [106]: data = web.get data yahoo(SPY'", '2006-01- 
01') 译 注 5In [107]: dataOut[107]:Datetimelndex: 1655 entries, 2006-01-03 00:00:00 to 2012- 

07-27 00:00:00Data columns:Open 1655 non-null valuesHigh 1655 non-null valuesLow 1655 
non-null valuesClose 1655 non-null valuesVolume 1655 non-null valuesAdj Close 1655 non- 
null valuesdtypes: float64(5), int64(1) 


接 下 来 计算 日 收益 率 ， 并 编写 一 个 用 于 将 收益 率 变换 为 趋势 信号 (通过 滞后 移动 形成 ) 的 画 
数 : 


px = data['Adj Close']returns = px.pct_change()def to_index(rets): index = (1+ 
rets).cumprod() first_loc = max(index.notnull().argmax() - 1, 0) index.values[first loc] = 1 
return indexdef trend_signal(rets, lookback, lag): signal = pd.rolling_sum(rets, lookback, 
min_periods=lookback - 5) return signal.shift(lag) 


图 数 ， 我 们 可 以 (单纯 地 ) 创建 和 测试 一 种 根据 每 周 五 动量 信号 进行 交易 的 交易 策 


In [109]: signal = trend_signal(returns, 100, 3)In [110]: trade friday = signal.resample('W- 
FRI").resample('B', fil_method="ffill)In [111]: trade_rets = trade_friday.shift(1) * returns 


然后 将 该 策略 的 收益 率 转 换 为 一 个 收益 指数 ， 并 绘制 一 张 图 表 (如 图 11-1 所 示 ) 


In [112]: to_index(trade_rets).plot() 


112; 
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11-1 : SPY 动 量 策略 收益 指数 


假如 你 希望 将 该 策略 的 性 能 按 不 同 大 小 的 交易 期 波幅 进行 划分 。 年 度 标准 差 是 计算 波幅 的 一 
种 简单 办 法 ， 我 们 可 以 通过 计算 夏普 比率 来 观察 不 同 波 动机 制 下 的 风险 收益 率 : 


vol = pd.rolling_std(returns, 250, min_periods=200) np.sgqrt(250)def sharpefrets, ann=250): 
return rets.mean!() / rets. std() np.sqrt(ann) 


现在 ， 利 用 qcut 将 vol 划分 为 四 等 份 ， 并 用 sharpe 进 行 聚合 


In [114]: trade_rets.groupby(pd.qcut(vol, 4)).agg(sharpe)Out[114]:[0.0955, 0.16] 
0.490051(0.16, 0.188] 0.482788(0.188, 0.231] -0.731199(0.231, 0.457] 0.570500 


这 个 结果 说 明 ， 该 策略 在 波幅 最 高 时 性 能 最 好 。 
译注 5 
: 跟前 面 说 的 一 样 ， 这 里 最 好 还 是 加 上 截止 日 期 ， 否 则 数据 会 比 书 上 介绍 的 多 
更 多 示例 应 用 
节 介绍 一 些 其 他 的 例子 。 


讨 


信号 前 治 分 析 
在 本 小 节 中 ， 将 介绍 一 种 简化 的 截面 动量 投资 组 合 ， 并 告诉 你 如 何 得 到 模型 参数 化 网 格 。 首 
先 ， 0 股票 做 成 一 个 投资 组 合 ， 并 加 载 它们 的 历史 价格 数据 : 


names = [AAPL', 'GOOG,', MSFT 'DELL,', 'GS'", 'MS'", 'BAC,', 'C']def get_px(stock, start, end): 
return web.get_data_yahoo(stock, start, end)[Adj Close']px = DataFrame({n: get_px(n， 
'1/1/2009", '6/1/2012') for n in names}) 


我 们 可 以 轻松 绘制 每 只 股票 的 累计 收益 (如 图 11-2 所 示 ) 


In [117]: px = px.asfreq('B').fillIna(method='pad')In [118]: rets = px.pct_change()In [119]: ((1 + 
rets).cumprod() - 1).plot() 


对 于 投资 组 合 的 构建 ， 我 们 要 计算 特定 回顾 期 的 动量 ， 然 后 按 降 序 排列 并 标准 化 : 


def calc_mom(price, lookback, lag): mom_ret = price.shift(lag).pct_change(lookback) ranks 
= mom_ret.rank(axis=1, ascending=False) demeaned = ranks - ranks.mean(axis=1) return 
demeaned / demeaned.std(axis=1) 


利用 这 个 变换 图 数 ， 我 们 再 编写 一 个 对 策略 进行 事后 检验 的 画 数 : 通过 指定 回顾 期 和 持 有 期 
(买卖 之 间 的 日 数 ) 计算 投资 组 合 整体 的 夏普 比率 。 


compound = lambda x : (1 + x).prod() - 1daily_sr = lambda x: x.mean() /x.std()def 
strat_sr(prices, lb, hold): # 计算 投资 组 合 权重 freq = '%dB' % hold port = calc_mom(prices, 
lb, lag=1) daily_rets = prices.pct_change() # 计算 投资 组 合 收益 port = 


port.shift(1).resample(freq, how='first) returns = daily_rets.resample(freq, how=compound) 
port_rets = (port returns).sum(axis=71) return daily_sr(port_rets) np.sqrt(252 / hold) 
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图 11-2 : 每 只 股票 的 累计 收益 
通过 价格 数据 以 及 一 对 参数 组 合 调 用 该 函数 料 会 得 到 一 个 标量 值 : 
In [122]: strat_sr(px, 70, 30)Out[122]: 0.27421582756800583 


然后 对 参数 网 格 ( 即 多 对 参数 组 合 ) 应 用 strat_sr 画 数 ， 并 闻 结 果 保 存在 一 个 defaultdict 中 ， 最 
后 再 将 全 部 结果 放 进 一 个 DataFrame 中 : 


from collections import defaultdictlookbacks = range(20, 90, 5)holdings = range(20, 90, 5)dd 
= defaultdict(dict)for Ib in lookbacks: for hold in holdings: dd[lb][hold] = strat_sr(px, lb， 
hold)ddf = DataFrame(dd)ddf.index.name = 'Holding Period ddf.columns.name = 'Lookback 
Period 


为 了 便于 观察 ， 我 们 可 以 将 该 结果 图 形 化 。 下 面 这 个 画 数 会 利用 matplotlib 生 成 一 张 带 有 装饰 
物 


译注 6 
的 热 图 (heatmap) 


import matplotlib.pyplot as pltdef heatmap(df, cmap=pltcm.gray_n: fig = plt.figure() ax = 
fig.add_subplot(111) axim = ax.imshow(df.values, cmap=cmap, interpolation='nearest') 
ax.set_xlabel(df.columns.name) ax.set_xticks(np.arange(len(df.columns))) 
ax.set_xticklabels(list(df.columns)) ax.set_ylabel(df.index.name) 
ax.set_yticks(np.arange(len(df.index))) ax.set_yticklabels(list(df.index)) plt.colorbar(axim) 


对 事后 检验 结果 调用 该 画 数 ， 就 会 得 到 图 11-3 : 


In [125]: heatmap(ddf) 
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图 11-3 : 动量 策略 各 种 回顾 期 和 持 有 期 的 夏普 比率 热 图 〈 越 高 越 好 ) 


期 货 合 约 转 仓 
期 货 是 一 种 无 所 不 在 的 衍生 品 合约 。 它 是 一 种 在 指定 日 期 交 收 指定 资产 〈 比 如 石油 、 黄 金 或 


FTSE100 指 数 的 股份 ) 的 约定。 在 实践 中 ， 由 于 期 货 合约 具有 限时 性 ， 对 (股票 、 货 币 、 商 
品 、 债 券 以 及 其 他 资产 类 ) 期 货 合 约 的 建 模 和 交易 是 很 复杂 的 。 例 如 ， 对 于 某 种 期 货 (比如 
银 或 铀 期货) ， 在 给 定时 间 点 ， 可 能 有 多 个 到 期 时 间 不 同 的 合约 被 交易 。 一 般 来 说 ， 下 一 个 
期 满 的 期 货 合 约 〈 即 近期 合约 ) 将 是 最 具 流 动 性 的 〈 成 交 量 最 高 和 买卖 差价 最 低 ) 。 
通过 一 个 表示 一 亏 (始终 持 有 近期 合约 ) 的 连续 的 收益 指数 即 可 轻松 实现 建 模 和 预测 。 从 一 
份 到 期 合约 过 渡 到 下 一 期 (或 更 远 的 ) 合约 称 为 转 仓 。 通 过 单个 期 货 合 约 数据 构建 连续 序列 
并 不 简单 ， 而 且 一 般 都 需要 深入 了 解 市 场 以 及 交易 方面 的 知识 才 行 。 例 如 ， 你 该 何 时 以 及 如 
何 快速 卖 出 到 期 合约 并 买 人 下 期 合约 ? 本 节 我 所 描述 的 就 是 这 样 的 一 个 过 程 。 

首先 ， 我 用 SPY 交 易 所 交易 基金 的 部 分 价格 作为 标准 普尔 500 指 数 的 代理 : 


In [127]: import pandas.io.data as web# 标准 普尔 500 指 数 的 近似 价格 In [128]: px = 
web.get_ data yahoo(SPY'")[Adj Close'] * 10In [129]: pxOut[129]:Date2011-08-01 
1261.02011-08-02 1228.82011-08-03 1235.5...2012-07-25 1339.62012-07-26 1361.72012- 
07-27 1386.8Name: Adj Close, Length: 251 


现在 ， 稍 微 做 一 些 设置 。 我 在 一 个 Series 中 放 了 两 份 标准 普尔 500 指 数 期 货 合约 及 其 到 期 日 
期 : 


from datetime import datetimeexpiry = {ESU2': datetime(2012, 9, 21)，ESZ2:: 
datetime(2012, 12, 21)}expiry = Series(expiry).order() 


expiry 现 在 应 该 是 这 个 样子 的 : 


In [131]: expiryOut[131]:ESU2 2012-09-21 00:00:00ESZ2 2012-12-21 00:00:00 


然后 ， 我 用 YahoolFinance 的 价格 以 及 一 个 随机 漫步 和 一 些 噪声 来 模拟 这 两 份 合 约 未 来 的 走 


势 : 


np.random.seed(12347)N = 200walk = (np.random.randint(0, 200, size=N) - 100) 
0.25perturb = (np.random.randint(0, 20, size=N) - 10) 0.25walk = walk.cumsum()rng = 
pd.date_range(px.index[0], periods=len(px) + N, freq='B')near = np.concatenate([px.values, 
px.values[-1] + walk])far = np.concatenate([px.values, px.values[-1] + walk + perturb])prices 
= DataFrame({ESU2': near, 'ESZ2': far}, index=rng) 


这 样 ，prices 就 有 了 关于 这 两 个 合约 的 时 间 序 列 : 


In [133]: prices.tail()Out[133]: ESU2 ESZ22013-04-16 1416.05 1417.802013-04-17 1402.30 
1404.552013-04-18 1410.30 1412.052013-04-19 1426.80 1426.052013-04-22 1406.80 
1404.55 


将 多 个 时 间 序 列 合并 为 单个 连续 序列 的 一 个 办 法 是 构造 一 个 加 权 矩 阵 。 活 动 合约 的 权重 应 该 
设 为 1， 直 到 期 满 为 止 。 在 那个 时 候 ， 你 必须 决定 一 个 转 仓 约定 。 下 面 这 个 本 数 可 以 计算 一 个 
加 权 和 矩阵 《权重 根据 到 期 前 的 期 数 减少 而 线性 衰减 ) 


def get_roll_weights(start, expiry, items, roll_periods=5): # start : 用 于 计算 加 权 和 矩阵 的 第 一 天 
# expiry : 由 “合约 代码 -> 到 期 日 期 "组 成 的 序列 # items : 一 组 合约 名 称 dates = 
pd.date_range(start, expiry[-1], freq='B') weights = DataFrame(np.zeros((len(dates), 
len(items))), index=dates, columns=items) prev_date = weights.index[0] for i, (item, 
ex_date) in enumerate(expiry.iteritems()): if i < len(expiry) - 1: weights.ix[prev_date:ex_date - 
pd.offsets.BDay!(), item] = 1 roll_rng = pd.date_range(end=ex_date - pd.offsets.BDay()， 
periods=roll_periods + 1, freq='B') decay_ weights = np.linspace(0, 1, roll_periods + 1) 
weights.ix[roll_rng, item] = 1 - decay_weights weights.ix[roll_rng, expiry.index[i + 1]] = 
decay_weights else: weights.ix[prev_date:, item] = 1 prev_date = ex_date return weights 


快 到 ESU2 到 期 日 的 那 几 天 的 权重 如 下 所 示 : 


In [135]: weights = get_roll_weights('6/1/2012', expiry, prices.columns)ln [136]: 
weights.ix['2012-09-12""2012-09-21']Out[136]: ESU2 ESZ22012-09-12 1.0 0.02012-09-13 
1.0 0.02012-09-14 0.8 0.22012-09-17 0.6 0.42012-09-18 0.4 0.62012-09-19 0.2 0.82012-09- 
20 0.0 1.02012-09-21 0.0 1.0 


最 后 ， 转 仓 期 货 收 益 就 是 合约 收益 的 加 权 和 : 
In [137]: rolled_returns = (prices.pct_change() * weights).sum(1) 
移动 相关 系数 与 线性 回 为 


动态 模型 在 金融 建 模 工作 中 扮演 着 重要 的 角色 ， 因 为 它们 可 用 于 模拟 历史 时 期 中 的 交易 决 
策 。 移 动 窗 口 和 指数 加 权时 间 序 列 画 数 就 是 用 于 处理 动 态 模型 的 工具 。 


相关 系数 是 观察 两 个 资产 时 间 序列 的 变化 的 协 动 性 的 一 种 手段 。pandas 的 rolling_corr 画 数 可 
以 根据 两 个 收益 序列 计算 出 移动 窗口 相关 系数 。 首 先 ， 我 从 YahoolFinance 加 载 一 些 价 格 序 
列 ， 并 计算 每 日 收益 率 : 


aapl = web.get_data yahoo(AAPL', '2000-01-01")[Adj Close']msft = 
web.get_data yahoo(MSFT', '2000-01-01")[Adj Close]aapl_rets = 
aapl.pct_change()msft_rets = msft.pct_change() 


然后 ， 我 计算 一 年 期 移动 相关 系数 并 绘制 图 表 (如 图 人 11-4 所 示 ) 

In [140]: pd.rolling_corr(aapl_rets, msft_rets, 250).plot() 

两 个 资产 之 间 的 相关 系数 存在 一 个 问题 ， 即 它 不 能 捕获 波动 性 差异 。 最 小 二 乘 回 为 提供 了 另 
一 种 对 一 个 变量 与 一 个 或 多 个 其 他 预测 变量 之 间 动 态 关系 的 建 模 办 法 。 


In [142]: model = pd.ols(y=aapl_rets, x={ MSFT msft_rets}, window=250)In [143]: 
model.betaOut[143]:Datetimelndex: 2913 entries, 2000-12-28 00:00:00 to 2012-07-27 
00:00:00Data columns:MSFT 2913 non-null valuesintercept 2913 non-null valuesdtypes: 
float64(2)In [144]: model.beta['MSFT'.plot() 
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图 11-4 : 荃 果 和 与 微软 的 一 年 期 相关 系数 
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图 11-5 : 葵 果 对 微软 一 年 期 beta (OLS 回 六 系数 ) 


pandas 的 ols 画 数 实现 了 静态 和 动态 〈 扩 展 或 移动 窗口 ) 的 最 小 二 乘 回 为 。 有 关 统 计 学 和 计量 
经 济 学 的 复杂 模型 的 更 多 信息 ， 请 参考 statsmodels 项 目 
(http://statsmodels.sourceforge.net) 。 


译注 6 

:“ 装 饰物 "就 是 图 例 、 标 题 之 类 的 "配角 ”元素 。 
第 12 章 ”NumpPy 高 级 应 用 
ndarray 对 象 的 内 部 机 理 


NumPy 的 ndarray 提 供 了 一 种 将 同 质数 据 块 〈 可 以 是 连续 或 跨越 译注 1 的 ， 稍 后 将 详细 讲解 ) 
解释 为 多 数组 对 象 的 方式 。 正 如 你 之 前 所 看 到 的 那样 ， 数 据 类 型 (dtype) 决定 了 数据 的 解释 
方式 ， 上 比如 浮 点 数 、 整 数 、 布 尔 值 等 。 


ndarray 如 此 强大 的 部 分 原因 是 所 有 数组 对 象 都 是 数据 块 的 一 个 跨度 视图 (strided view) 。 你 
可 能 想 知道 数组 视图 arr[::2,::-1] 不 复制 任何 数据 的 原因 是 什么 。 简 单 地 说 ，ndarray 不 只 是 一 
块 内 存 和 一 个 dtype， 它 还 有 跨度 信息 ， 这 使 得 数组 能 以 各 种 步 幅 (step size) 在 内 存 中 移动 


译注 2 

。 更 准确 地 讲 ，ndarray 内 部 由 以 下 内 容 组 成 : 
一 个 指向 数组 (一 个 系统 内 存 块 ) 的 指针 。 
:数据 类 型 或 dtype。 


一 个 表示 数组 形状 (shape) 的 元 组 ， 例 如 ， 一 个 10x5 的 数组 ， 其 形状 为 (10,5)。 


In [8]: np.ones((10, 5)).shape Out[8]: (10, 5) 


一 个 跨度 元 组 (stride) ， 其 中 的 整数 指 的 是 为 了 前 进 到 当前 维度 下 一 个 元 素 需 要 “ 跨 过 ”的 字 
节 数 ， 例 如 ， 一 个 典型 的 〈C 顺 序 ， 稍 后 将 详细 讲解 ) 3x4x5 的 float64 (8 个 字 节 ) 数组 ， 其 
凑 度 为 (160,40,8)。 


In [9]: np.ones((3, 4, 5), dtype=np.float64).strides Out[9]: (160, 40, 8) 


虽然 NumPy 用 户 很 少 会 对 数组 的 跨度 信息 感 兴趣 ， 但 它们 却 是 构建 非 复制 式 数组 视图 的 重要 
因素 。 跨度 甚 至 可 以 是 负数 ， 这 样 会 使 数组 在 内 存 中 后 向 移动 ， 比 如 在 切片 obj[::-1] 或 
obj[:,::-1] 中 就 是 这 样 的 。 


12-1 简 单 地 说 明了 ndarray 的 内 部 结构 。 


ndarray 对 象 


CI 





图 12-1 : NumPy 的 ndarray 对 象 

NumPy 数 据 类 型 体系 

你 可 能 偶尔 需要 检查 数组 中 所 包含 的 是 否 是 整数 、 浮 点 数 、 字 符 串 或 Python 对 象 。 因 为 浮 点 

数 的 种 类 很 多 ， 判 断 dtype 是 否 属 于 某 个 大 类 的 工作 非常 繁 玉 。 幸 运 的 是 ，dtype 都 有 一 个 超 类 
(比如 np.integer 和 np.floating) ， 它 们 可 以 跟 np.issubdtype 本 数 结合 使 用 : 

In [10]: ints = np.ones(10, dtype=np.uint16)In [11]: floats = np.ones(10, dtype=np.float32)In 

[12]: np.issubdtype(kints.dtype, np.integer)Out[12]: Trueln [13]: np.issubdtype(floats.dtype， 

np.floating)Out[13]: True 

调用 dtype 的 mro 方 法 即 可 查看 其 所 有 的 父 类 : 

In [14]: np.float64.mro()Out[14]:[numpy.float64, numpy.floating, numpy.inexact, 
numpy.number numpy.generic, float, object] 

大 部 分 NumPy 用 户 完全 不 需要 了 解 这 些 知识 ， 但 是 这 些 知 识 偶尔 还 是 能 派 上 用 场 的 。 图 12-2 
说 明了 dtype 体 系 以 及 父子 类 关系 注 1。 
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图 12-2 : NumPy 的 dtype 体 系 

译注 1 

: 也 就 是 非 连 续 存 储 。 

译注 2 : 数组 本 身 不 能 移动 ， 这 里 实际 上 说 的 是 指针 。 

注 1 

: 有 些 dtype 的 名 称 后 面 带 有 下 划 线 ， 这 是 了 避免 NumPy 类 型 和 Python 类 型 之 间 的 变量 名 冲 
突 。 

高 级 数组 操作 


除 花 式 素 引 、 切 片 、 布 尔 条 件 取 子 集 等 操作 之 外 ， 数 组 的 操作 方式 还 有 很 多 。 哩 然 pandas 中 
的 高 级 函数 可 以 义理 数据 分 析 工 作 中 的 许多 重型 任务 ， 但 有 时 你 还 是 需要 编写 一 些 在 现 有 库 
找 不 到 的 数据 算法 。 


数组 重 塑 


鉴于 我 们 已 经 学 过 的 有 关 NumPy 数 组 的 知识 ， 当 你 知道 “无 需 复 制 任何 数据 ， 数 组 就 能 从 一 个 
形状 转换 为 另 一 个 形状 "时 应 该 会 感到 有 一 点 吃惊 。 只 需 向 数组 的 实例 方法 reshape 传 入 一 个 
表示 新 形状 的 元 组 即 可 实现 该 目的 。 假 设 有 一 个 一 维 数组 ， 我 们 希望 将 其 重新 排列 为 一 个 矩 
阵 : 


In [15]: arr = np.arange(8)In [16]: arrOut[16]: array([0, 1, 2, 3, 4, 5, 6, 7])In [17]: 
arr.reshape((4, 2))Out[17]:array([[0, 1], [2, 3], [4, 5], [6, 7]]) 


多 维 数组 也 能 被 重 塑 : 
In [18]: arr.reshape((4, 2)).reshape((2, 4))Out[18]:array([[0, 1, 2, 3], [4, 5, 6, 7]]) 


作为 参数 的 形状 的 其 中 一 维 可 以 是 一 1， 它 表示 该 维度 的 大 小 由 数据 本 身 推断 而 来 : 


In [19]: arr = np.arange(15) In [20]: arrreshape((5, -1)) Out[20]: array([[ 0, 1, 2], [ 3, 4, 5], [ 6， 
7, 8], [ 9, 10, 11], [12, 13, 14]]) 


由 于 数组 的 shape 属 性 是 一 个 元 组 ， 因 此 它 也 可 以 被 传人 reshape : 


In [21]: other_arr = np.ones((3, 5))In [22]: other_arr.shapeOut[22]: (3, 5)In [23]: 
arr.reshape(other_arrshape)Out[23]:array([[ 0, 1, 2, 3, 4], [ 5, 6, 7, 8, 9], [10, 11, 12, 13, 14]]) 


与 reshape 将 一 维 数组 转换 为 多 维 数 组 的 运算 过 程 相反 的 运算 通常 称 为 局 平 化 (flattening) 或 
散 开 (raveling) 


In [24]: arr = np.arange(15).reshape((5, 3)) In [25]: arr Out[25]: array([[ 0, 1, 2], [ 3, 4, 5], [ 6， 
7, 8], [ 9, 10, 11], [12, 13, 14]])In [26]: arr.ravel()Out[26]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10， 
11, 12, 13, 14]) 


如 果 没 有 必要 ，ravel 不 会 产生 源 数 据 的 副本 (下 面料 详细 介绍 ) 。flatten 方 法 的 行为 类 似 于 
ravel， 只 不 过 它 总 是 返回 数据 的 副本 : 


In [27]: arrflatten()Out[27]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14]) 


数组 可 以 被 重 塑 或 散 开 为 别 的 顺序 。 这 对 NumPy 新 手 来 说 是 一 个 比较 微妙 的 问题 ， 所 以 在 下 
一 小 节 中 我 们 将 专门 讲解 这 个 问题 。 

C 和 Fortran 顺 序 

与 其 他 科学 计算 环境 相反 (如 R 和 MATLAB) ，NumpPy 人 允许 你 更 为 灵活 地 控制 数据 在 内 存 中 的 
布局 。 默 认 情 况 下 ，NumPy 数 组 是 按 行 优先 顺序 创建 的 。 在 空间 方面 ， 这 就 意味 着 ， 对 于 一 


个 二 维 数组 ， 每 行 中 的 数据 项 是 被 存放 在 相 邻 内 存 位 置 上 的 。 另 一 种 顺序 是 列 优先 顺序 ， 它 
意味 着 〈 猜 到 了 吧 ) 每 列 中 的 数据 项 是 被 存放 在 相 邻 内 存 位 置 上 的 。 


由 于 一 些 历 史 原 因 ， 行 和 列 优先 顺序 又 分 别称 为 C 和 Fortran 顺 序 。 在 FORTRAN 77 中 (前 间 
们 的 语言 ) ， 和 矩阵 全 都 是 列 优先 的 。 


像 reshape 和 reval 这 样 的 函数 ， 人 个 表示 数组 数据 存放 顺序 的 order 参 数 。 一 般 可 
以 是 'C' 或 'F' (还 有 'A 和 'K' 等 不 常用 的 选项 ， 具 体 请 参考 NumPy 的 文档 ) 。 图 12-3 对 此 进行 了 
说 明 。 


In [28]: arr = np.arange(12).reshape((3, 4))In [29]: arrOut[29]:array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 
8, 9, 10, 11]])In [30]: arr.ravel()Out[30]: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11])In [31]: 
arr.ravel('F')Out[31]: array([ 0, 4, 8, 1, 5, 9, 2, 6, 10, 3, 7, 11]) 


二 维 或 更 高 维 数组 的 重 塑 过 程 比较 令 人 费解 。C 和 Fortranj 顺 序 的 关键 区 别 就 是 维度 的 行进 顺 
序 : 


:C/ 行 优先 顺序 : 先 经 过 更 高 的 维度 〈 例 如 ， 轴 1 会 先 于 轴 0 被 处 理 ) 。 
Fortran/ 列 优先 顺序 : 后 经 过 更 高 的 维度 〈 例 如 ， 轴 0 会 先 于 轴 1 被 处 理 ) 。 


数组 的 合并 和 拆 分 
numpy.concatenate 可 以 按 指定 轴 将 一 个 由 数组 组 成 的 序列 (如 元 组 、 列 表 等 ) 连接 到 一 起 。 


In [32]: arr1 = np.array([[1, 2, 3], [4, 5, 6]])In [33]: arr2 = np.array([[7, 8, 9], [10, 11, 12]])In 
[34]: np.concatenate([arr1, arr2], axis=0)Out[34]:array([[ 1, 2, 3], [ 4, 5, 6], [ 7, 8, 9], [10, 11, 
12]])In [35]: np.concatenate([arr1, arr2], axis=1)Out[35]:array([[ 1, 2, 3, 7, 8, 9], [ 4, 5, 6, 10， 
11, 12]]) 


Tn | 


arr.reshape((4, 3), order=?) 


《顺序 ( 行 优先 ) Fortran 顺序 ( 列 优先 ) 





order="'C' 


图 12-3 : 按 C ( 行 优先 ) 或 Fortran ( 列 优先 ) 顺序 进行 重 塑 


对 于 常见 的 连接 操作 ，NumPy 提 供 了 一 些 比较 方便 的 方法 〈 如 vstack 和 hstack) 。 因 此 ， 上 
面 的 运算 还 可 以 表达 为 : 


In [36]: np.vstack((arr1, arr2)) In [37]: np.hstack((arr1, arr2))Out[36]: Out[37]:array([[ 1, 2, 3], 
array([[ 1, 2, 3, 7, 8, 9], [ 4, 5, 6], [ 4, 5, 6, 10, 11, 12]]) [ 7, 8, 9], [10, 11, 12]]) 


与 此 相反 ，split 用 于 将 一 个 数组 治 指定 轴 拆 分 为 多 个 数组 : 


In [38]: from numpy.random import randnln [39]: arr = randn(5, 2) In [40]: arr Out[40]: array([[ 
0.1689, 0.3287], [ 0.4703, 0.8989], [ 0.1535, 0.0243], [-0.2832, 1.1536], [ 0.2707, 0.8075]])In 
[41]: first, second, third = np.split(arr, [1, 3])In [42]: firstOut[42]: array([[ 0.1689, 0.3287]])In 
[43]: second In [44]: thirdOut[43]: Out[44]:array([[ 0.4703, 0.8989], array([[-0.2832, 1.1536], [ 
0.1535, 0.0243]]) [ 0.2707, 0.8075]]) 


表 12-1 中 列 出 了 所 有 关于 数组 连接 和 拆 分 的 函数 ， 其 中 有 些 是 专门 为 了 方便 常见 的 连接 运算 
而 提供 的 。 


译注 3 


表 12-1: 数组 连接 函数 


函数 说 明 

concatenate 最 一 般 化 的 连接 ， 沿 一 条 轴 连 接 一 组 数组 
Vstack、row_stack 以 面向 行 的 方式 对 数组 进行 堆 合 ( 沿 轴 0) 

hstack 以 面向 列 的 方式 对 数组 进行 堆 全 ( 沿 轴 1) 
column_stack 类 似 于 hstack， 但 是 会 先 将 一 维 数组 转换 为 二 维 列 向 量 
dstack 以 面向 “深度 ”的 方式 对 数组 进行 堆 谷 ( 沿 轴 2) 

split 沿 指 定 轴 在 指定 的 位 置 拆 分 数组 

hsplit、 vsplit、 dsplit split 的 便捷 化 函数 ， 分 别 沿 轴 0、 轴 1、 轴 2 进行 拆 分 


译注 3 : 这 里 面 还 有 拆 分 西数 。 
堆 重 辅助 类 : r 和 c 
NumPy 命 名 空间 中 有 两 个 特殊 的 对 象 一 r 和 c， 它 们 可 以 使 数组 的 堆 熏 操作 更 为 简洁 : 


In [45]: arr = np.arange(6)In [46]: arr1 = arr.reshape((3, 2))In [47]: arr2 = randn(3, 2)In [48]: 
np.r[arr1, arr2] In 1491 np.cInp.r_[arr1, arr2], arr]Out[48]: Out[49]:array([[ 0.，1. ], array([[ 0. ， 
1.,0.],[2.,3.],[2.,3.,1.],[4.,5.],[4.,5.,2.],[0.7258, -1.5325], [ 0.7258, -1.5325, 3. 
], [-0.4696, -0.2127], [-0.4696, -0.2127, 4. ], [-0.1072, 1.2871]]) [-0.1072, 1.2871, 5. ]]) 


此 外 ， 它 还 可 以 将 切片 翻译 为 数组 : 

In [50]: np.c_[1:6, -10:-5]Out[50]:array([[ 1, -10], [ 2, -9], [ 3, -8], [ 4, -7], [ 5, -6]]) 
r 和 c 的 具体 功能 请 参考 其 文档 。 

元 素 的 重复 操作 : tile 和 repeat 


注意 : 跟 其 他 流行 的 数组 编程 语言 (如 MATLAB) 不 同 ，NumPy 中 很 少 需要 对 数组 进行 重复 
(replicate) 


译注 4 
。 这 主要 是 因为 广播 (broadcasting， 我 们 将 在 下 一 节 中 讲解 该 技术 ) 能 更 好 地 满足 该 需求 。 


对 数组 进行 重复 以 产生 更 大 数组 的 工具 主要 是 repeat 和 tile 这 两 个 函数 。repeat 会 将 数组 中 的 
各 元 素 重 复 一 定 次 数 ， 从 而 产生 一 个 更 大 的 数组 : 


In [51]: arr = np.arange(3)In [52]: arr.repeat(3)Out[52]: array([0, 0, 0, 1, 1, 1, 2, 2, 2]) 


默认 情况 下 ， 如 果 传 人 的 是 一 个 整数 ， 则 各 元 素 就 都 会 重复 那么 多 次 。 如 果 传 人 的 是 一 组 整 
数 ， 则 各 元 素 就 可 以 重复 不 同 的 次 数 : 


In [53]: arr.repeat([2, 3, 4])Out[53]: array([0, 0, 1, 1, 1, 2, 2, 2, 2]) 


对 于 多 维 数组 ， 还 可 以 让 它们 的 元 素 治 指定 轴 重 复 。 


In [54]: arr = randn(2, 2)In [55]: arrOut[55]:array([[ 0.7157, -0.6387], [ 0.3626, 0.849 ]])In [56]: 
arr.repeat(2, axis=0)Out[56]:array([[ 0.7157, -0.6387], [ 0.7157, -0.6387], [ 0.3626, 0.849 ], [ 
0.3626, 0.849 ]]) 


注意 ， 如 果 没 有 设置 轴 向 ， 则 数组 会 被 局 平 化 ， 这 可 能 不 会 是 你 想 要 的 结果 。 同 样 ， 在 对 多 
维 进 行 重复 时 ， 也 可 以 传人 一 组 整数 ， 这 样 就 会 使 各 切片 重复 不 同 的 次 数 : 


In [57]: arr.repeat([2, 3], axis=0)Out[57]:array([[ 0.7157, -0.6387], [ 0.7157, -0.6387], [ 
0.3626, 0.849 ], [ 0.3626, 0.849 ], [ 0.3626, 0.849 ]])In [58]: arr.repeat([2, 3], 
axis=1)Out[58]:array([[ 0.7157, 0.7157, -0.6387, -0.6387, -0.6387], [ 0.3626, 0.3626, 0.849 ， 
0.849 , 0.849 ]]) 


tile 的 功能 是 治 指定 轴 向 堆 熏 数组 的 副本 。 你 可 以 形象 地 将 其 想象 成 “ 铺 瓷砖 ”: 


In [59]: arrOut[59]:array([[ 0.7157, -0.6387], [ 0.3626, 0.849 ]])In [60]: np.tile(arr, 
2)Out[60]:array([[ 0.7157, -0.6387, 0.7157, -0.6387], [ 0.3626, 0.849 , 0.3626, 0.849 ]]) 


第 二 个 参数 是 首 砖 的 数量 。 对 于 标量 ， 痢 砖 是 水 平 铺设 的 ， 而 不 是 垂直 铺设 。 它 可 以 是 一 个 
表示 “铺设 "布局 的 元 组 : 

In [61]: arrOut[61]:array([[ 0.7157, -0.6387], [ 0.3626, 0.849]])In [62]: np.tile(arr, (2, 1)) In 
[63]: np.tile(arr, (3, 2))Out[62]: Out[63]:array([[ 0.7157, -0.6387], array([[ 0.7157, -0.6387, 
0.7157, -0.6387], [ 0.3626, 0.849], [ 0.3626, 0.849 , 0.3626, 0.849 ], [ 0.7157, -0.6387], [ 


0.7157, -0.6387, 0.7157, -0.6387], [ 0.3626, 0.849 ]) [ 0.3626, 0.849 , 0.3626, 0.849 ], [ 
0.7157, -0.6387, 0.7157, -0.6387], [ 0.3626, 0.849 , 0.3626, 0.849 ]]) 


花 式 索 引 的 等 价 函 数 : take 和 put 
在 第 4 章 中 我 们 讲 过 ， 获 取 和 设置 数组 子 集 的 一 个 办 法 是 通过 整数 数组 使 用 花 式 索 引 : 


In [64]: arr = np.arange(10)* 100In [65]: inds = [7, 1, 2, 6] In [66]: arr[inds] Out[66]: 
array([700, 100, 200, 600]) 


ndarray 有 两 个 方法 专门 用 于 获取 和 设置 单个 轴 向 上 的 选区 : 


In [67]: arr.take(inds)Out[67]: array([700, 100, 200, 600])In [68]: arr.put(inds, 42)In [69]: 
arrOut[69]: array([ 0, 42, 42, 300, 400, 500, 42, 42, 800, 900])In [70]: arr.put(inds, [40, 41, 
42, 43])In [71]: arrOut[71]: array([ 0, 41, 42, 300, 400, 500, 43, 40, 800, 900]) 


要 在 其 他 轴 上 使 用 take， 只 需 传 入 axis 关 键 字 即 可 : 


In [72]: inds = [2, 0, 2, 1]In [73]: arr = randn(2, 4)In [74]: arrOut[74]:array([[-0.8237, 2.6047, 
-0.4578, -1. 1, [ 2.3198, -1.0792, 0.518 , 0.2527]])In [75]: arr.take(inds, 
axis=1)Out[75]:array([[-0.4578, -0.8237, -0.4578, 2.6047], [ 0.518 , 2.3198, 0.518 , -1.0792]]) 


put 不 接受 axis 参 数 ， 它 只 会 在 数组 的 局 平 化 版 本 (一 维 ，C 顺 序 ) 上 进行 索引 (这 一 点 今后 应 
该 是 会 有 所 改善 的 ) 。 因 此 ， 在 需要 用 其 他 轴 向 的 索引 设置 元 素 时 ， 最 好 还 是 使 用 花 式 索 
3|。 


注意 : 直到 编写 本 书 时 为 止 ，take 和 put 函 数 的 性 能 通常 要 比 花 式 素 引 好 得 多 。 我 认为 这 是 一 
个 "bug"，NumpPy 中 应 该 有 什么 东西 需要 修正 才 对 。 当 你 用 整数 数组 选取 大 数组 的 子 集 时 ， 最 
好 还 是 注意 一 下 这 个 问题 : 

In [76]: arr = randn(1000, 50)# 500 行 随机 样本 In [77]: inds = np.random.permutation(1000) 


[:500]In [78]: %timeit arr[inds]1000 loops, best of 3: 356 us per Iloopln [79]: %timeit 
arr.take(inds, axis=0)10000 loops, best of 3: 34 us per loop 


译注 4 

: 实在 找 不 到 更 好 的 词 了 ， 所 以 这 里 还 是 应 该 解释 一 下 。 虽 然 都 是 “重复 ”， 但 可 以 这 样 理解 : 
duplicate 是 结果 ，replicate 是 造成 duplicate 的 过 程 。 

广播 

广播 (broadcasting) 指 的 是 不 同形 状 的 数组 之 间 的 算术 运算 的 执行 方式 。 它 是 一 种 非常 强大 
的 功能 ， 但 也 容易 伟人 误解 ， 即 使 是 经 验 丰 富 的 老手 也 是 如 此 。 将 标量 值 跟 数组 合并 时 就 会 
发 生 最 简 的 广播 : 

In [80]: arr = np.arange(S)In [81]: arr In [82]: arr * 4Out[81]: array([0, 1, 2, 3, 4]) Out[82]: 
array([ 0, 4, 8, 12, 16]) 

这 里 我 们 说 : 在 这 个 乘法 运算 中 ， 标 量 值 4 被 广播 到 了 其 他 所 有 的 元 素 上 。 

再 来 看 一 个 例子 ， 我 们 可 以 通过 减 去 列 平 均值 的 方式 对 数组 的 每 一 列 进 行距 平 化 义理。 这 个 
问题 解决 起 来 非常 简单 : 

In [83]: arr = randn(4, 3)In [84]: arr.mean(0)Out[84]: array([ 0.1321, 0.552 , 0.8571])In [85]: 
demeaned = arr - arr.mean(0)In [86]: demeaned In [87]: demeaned.mean(0)Out[86]: Out[87]: 
array([ 0., -0., -0.])array([[ 0.1718, -0.1972, -1.3669], [ -0.1292, 1.6529, -0.3429], [ -0.2891, 
-0.0435, 1.2322], [ 0.2465, -1.4122, 0.4776]]) 

图 12-4 形 象 地 展示 了 该 过 程 。 用 广播 的 方式 对 行进 行距 平 化 处 理会 稍微 麻烦 一 些 。 幸 运 的 


是 ， 只 要 遵循 一 定 的 规则 ， 低 维度 的 值 是 可 以 被 广播 到 数组 的 任意 维度 的 〈 比 如 对 二 维 数组 
各 列 减 去 行 平 均值 ) 。 于 是 就 得 到 了 : 


(4,3) (3, ) (4, 3) 


图 12-4 : 一 维 数组 在 轴 0 上 的 广播 


广播 的 原则 
如 果 两 个 数组 的 后 扩 维 度 (trailing dimension， 即 从 末尾 开始 算 起 的 维度 ) 的 轴 长 
度 相 符 或 其 中 一 方 的 长 度 为 1 ， 则 认为 它们 有 是 广播 状 容 的 。 广 播 会 在 缺失 和 (或 ) 
长 度 为 1 的 维度 上 进行 


虽然 我 是 一 名 经 验 丰富 的 NumPy 老 手 ， 但 经 常 还 是 得 停 下 来 画 张 图 并 想 想 广播 的 原则 。 再 来 
看 一 下 最 后 那个 例子 ， 假 设 你 希望 对 各 行 减 去 那个 平均 值 。 由 于 arrmean(0) 的 长 度 为 3， 所 以 
它 可 以 在 0 轴 向 上 进行 广播 : 因为 arr 的 后 缘 维 度 是 3， 所 以 它们 是 兼容 的 。 根 据 该 原则 ， 要 在 1 
轴 向 上 做 减法 〈 即 各 行 减 去 行 平均 值 ) ， 较 小 的 那个 数组 的 形状 必须 是 (4,1) : 


In [88]: arrOut[88]:array([[ 0.3039, 0.3548, -0.5097], [ 0.0029, 2.2049, 0.5142], [ -0.1571， 
0.5085, 2.0893], [ 0.3786, -0.8602, 1.3347]])In [89]: row_means = arr.mean(1) In [90]: 
row_means.reshape((4, 1)) Out[90]: array([[ 0.0496], [ 0.9073], [ 0.8136], [ 0.2844]])In [91]: 
demeaned = arr - row_means.reshape((4, 1))In [92]: demeaned.mean(1)Out[92]: array([ 0., 
0., 0., 0.]) 


你 的 关 还 没 炸 吧 ? 图 12-5 说 明了 该 运算 的 过 程 。 
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图 12-5 : 二 维 数组 在 轴 1 上 的 广播 
12-6 展 示 了 另外 一 种 情况 ， 这 次 是 在 一 个 三 维 数组 上 治 0 轴 向 加 上 一 个 二 维 数 组 。 


(3,4 (4,2) (3,4,2) 





图 12-6 : 三 维 数组 在 轴 0 上 的 广播 

治 其 他 轴 向 广播 

高 维度 数组 的 广播 似乎 更 难以 理解 ， 而 实际 上 它 也 是 遵循 广播 原则 的 。 如 果 不 然 ， 你 就 会 得 
到 下 面 这 样 一 个 错误 : 

In [93]: arr - arr.mMean(1)--—---------------------———---------- 一 -一 ValueError 


Traceback (most recent call last) in <module>()----> 1 arr - arr.mean(1)ValueError: operands 
could not be broadcast together with shapes (4,3) (4) 


人 们 经 常 需要 通过 算术 运算 过 程 将 较 低 维度 的 数组 在 除 0 轴 以 外 的 其 他 轴 向 上 广播 。 根 据 广播 
的 原则 ， 较 小 数组 的 "广播 维 " 必 须 为 1。 在 上 面 那个 行距 平 化 的 例子 中 ， 这 就 意味 着 要 将 行 平 
均值 的 形状 变 成 (4,1) 而 不 是 (4,) : 

In [94]: arr - arr.mean(1).reshape((4, 1))Out[94]:array([[ 0.2542, 0.3051, -0.5594], [ -0.9044, 

1.2976, -0.3931], [ -0.9707, -0.3051, 1.2757], [ 0.0942, -1.1446, 1.0503]]) 

对 于 三 维 的 情况 ， 在 三 维 中 的 任何 一 维 上 广播 其 实 也 就 是 将 数据 重 塑 为 兼容 的 形状 而 已 。 

12-7 说 明了 要 在 三 维 数 组 各 维度 上 广播 的 形状 需求 。 





整个 数组 的 形状 : (8，5，3) 轴 22 (8。5, 13 





图 12-7 : 能 在 该 三 维 数组 上 广播 的 二 维 数组 的 形状 


于 是 就 有 了 一 个 非常 普通 的 问题 (尤其 是 在 通用 算法 中 ) ， 即 专门 为 了 广播 而 添加 一 个 长 度 
为 1 的 新 轴 。 虽然 reshape 是 一 个 办 法 ， 但 插入 轴 需 要 构造 一 个 表示 新 形状 的 元 组 。 这 是 一 个 
很 郁闷 的 过 程 。 因 此 ，NumPy 数 组 提供 了 一 种 通过 索引 机 制 插入 轴 的 特殊 语法 。 下 面 这 段 代 
码 通过 特殊 的 np.newaxis 属 性 以 及 “全 "切片 来 插入 新 轴 : 


In [95]: arr = np.zeros((4, 4))In [96]: arr 3d = arr[:, np.newaxis, :]In [97]: 
arr_3d.shapeOut[97]: (4, 1, 4)In [98]: arr_ 1d = np.random.normal(size=3)In [99]: arr_1d[:, 
np.newaxis] In [100]: arr_1d[Inp.newaxis, :]Out[99]: Out[100]: array([[-0.3899, 0.396 ， 
-0.1852]])array([[-0.3899], [ 0.396 ], [ -0.1852]]) 


因此 ， 如 果 我 们 有 一 个 三 维 数组 ， 并 希望 对 轴 2 进 行距 平 化 ， 那 么 只 需要 编写 下 面 这 样 的 代码 
就 可 以 了 : 


In [101]: arr = randn(3, 4, 5)In [102]: depth_means = arr.mean(2)In [103]: 
depth_meansOut[103]:array([[ 0.1097, 0.3118, -0.5473, 0.2663], [ 0.1747, 0.1379, 0.1146， 
-0.4224], [ 0.0217, 0.3686, -0.0468, 1.3026]])In [104]: demeaned = arr - depth_means[:，:， 
np.newaxis]ln [105]: demeaned.mean(2)Out[105]:array([[ 0., 0., -0., 0.], [ 0., -0., -0., 0.], [ -0., 
-0., 0., 0.]]) 


也 许 你 会 对 此 感到 非常 困惑 。 不 用 担心 ， 只 要 多 动手 ， 很 快 就 能 搞 明白 ! 


有 些 读 者 可 能 会 想 ， 在 对 指定 轴 进 行距 乎 化 时 ， 有 没有 一 种 既 通 用 又 不 牺牲 性 能 的 方法 呢 ? 
实际 上 是 有 的 ， 但 需要 一 些 索 引 方 面 的 技巧 : 


def demean_axis(arr, axis=0): means = arr.mean(axis)# 下 面 这 些 一 般 化 的 东西 类 似 于 N 维 的 
[:, :, np.newaxis] indexer = [slice(None)] * arrndim indexer[axis] = np.newaxis return arr - 
means[indexer] 


通过 广播 设置 数组 的 值 


算术 运算 所 遵循 的 广播 原则 同样 也 适用 于 通过 索引 机 制 设置 数 组 值 的 操作 。 对 于 最 简单 的 情 
况 ， 我 们 可 以 这 样 做 : 


In [106]: arr = np.zeros((4, 3))In [107]: arr[:] = 5 In [108]: arr Out[108]: array([[ 5., 5., 5.], [ 5., 
5., 5.], [5., 5., 5.], [ 5., 5., 5.]]) 


再 看 一 个 复 条 点 的 例子 ， 假 设 我 们 想 要 用 一 个 一 维 数组 来 设置 目标 数组 的 各 列 。 只 要 保证 形 
状 兼容 就 可 以 了 : 


In [109]: col = np.array([1.28, -0.42, 0.44, 1.6])In [110]: arr[:] = coll:, np.newaxis] In [111]: arr 
Out[111]: array([[ 1.28, 1.28, 1.28], [ -0.42, -0.42, -0.42], [ 0.44, 0.44, 0.44],[ 1.6 , 1.6, 1.6 
]])In [112]: arr[:2] = [[-1.37], [0.509]] In [113]: arr Out[113]: array([[-1.37 , -1.37 , -1.37 ], [ 
0.509, 0.509, 0.509], [ 0.44 , 0.44 , 0.44 ],[ 1.6 , 1.6 ,1.6 ]]) 


ufunc 高 级 应 用 

虽然 许多 NumPy 用 户 只 会 用 到 通用 函数 所 提供 的 快速 的 元 素 级 运算 ， 但 通用 男 数 实际 上 还 有 
一 些 高 级 用 法 能 使 我 们 丢 开 循环 而 编写 出 更 为 简洁 的 代码 。 

ufunc 实 例 方 法 

NumpPy 的 各 个 二 元 ufunc 都 有 一 些 用 于 执行 特定 矢量 化 运算 的 特殊 方法 。 表 12-2 汇 总 了 这 些 方 
法 ， 下 面 我 将 通过 几 个 具体 的 例子 对 它们 进行 说 明 。 

reduce 接 受 一 个 数组 参数 ， 并 通过 一 系列 的 二 元 运算 对 其 值 进 行 聚合 〈 可 指明 轴 向 ) 。 例 
如 ， 我 们 可 以 用 np.add.reduce 对 数组 中 各 个 元 素 进 行 求 和 : 


In [114]: arr = np.arange(10)In [115]: np.add.reduce(arr)Out[115]: 45In [116]: 
arr.sum()Out[116]: 45 


起 始 值 取决 于 ufunc (对 于 add 的 情况 ， 就 是 0) 。 如 果 设 置 了 轴 号 ， 约 简 运 算 就 会 治 该 轴 向 执 
行 。 这 就 使 你 能 用 一 种 比较 简洁 的 方式 得 到 某 些 问题 的 答案 。 在 下 面 这 个 例子 中 ， 我 们 用 
np.logical_and 检 查 数组 各 行 中 的 值 是 否 是 有 序 的 : 

In [118]: arr = randn(5, 5)In [119]: arr[::2].sort(1) # 对 部 分 行进 行 排序 In [120]: arr[:, :-1] < arr[:， 
1:]Out[120]:array([[ True, True, True,，True], [ False, True, False, False], [ True, True, True, 
True], [ True, False, True, True], [ True, True, True，True]l, dtype=bool)In [121]: 
np.logical_and.reduce(arr[:, :-1] < arr[:, 1:], axis=1)Out[121]: array([ True, False, True, False， 
True], dtype=bool) 


当然 了 ，logical_and.reduce 跟 all 方 法 是 等 价 的 。 


accumulate 跟 reduce 的 关系 就 像 cumsum 跟 sum 的 关系 那样 。 它 产生 一 个 跟 原 数组 大 小 相同 的 
中 间 "“ 累 计 ” 值 数组 : 


In [122]: arr = np.arange(15).reshape((3, 5))In [123]: np.add.accumulate(arr, 
axis=1)Out[123]:array([[ 0, 1, 3, 6, 10], [ 5, 11, 18, 26, 35], [10, 21, 33, 46, 60]]) 


outer 用 于 计算 两 个 数组 的 叉 积 : 


In [124]: arr = np.arange(3).repeat([1, 2, 2])In [125]: arrOut[125]: array([0, 1, 1, 2, 2])In [126]: 
np.multiply.outer(arr, np.arange(5))Out[126]:array([[0, 0, 0, 0, 0], [0, 1, 2, 3, 4], [0, 1, 2, 3, 4], 
[0, 2, 4, 6, 8], [0, 2, 4, 6, 8]]) 


outer 输 出 结果 的 维度 是 两 个 输入 数据 的 维度 之 和 : 


In [127]: result = np.subtract.outer(randn(3, 4), randn(5))In [128]: result.shapeOut[128]: (3, 4, 
5) 


最 后 一 个 方法 reduceat 用 于 计算 “局 部 约 简 "， 其 实 就 是 一 个 对 数据 各 切片 进行 聚合 的 groupby 
运算 。 虽 然 其 灵活 性 不 如 pandas 的 groupby 功 能 ， 但 它 在 适当 的 情况 下 运算 会 非常 快 。 它 接受 
一 组 用 于 指示 如 何 对 值 进行 拆 分 和 聚合 的 “ 面 元 边界 ”: 


In [129]: arr = np.arange(10)In [130]: np.add.reduceat(arr, [0, 5, 8])Out[130]: array([10, 18, 
17]) 


最 终结 果 是 在 arr[0:5]、arr[5:8] 以 及 arr[8:] 上 执行 的 约 简 (本 例 中 就 是 求 和 ) 。 跟 其 他 方法 一 
样 ， 这 里 也 可 以 传人 一 个 axis 参 数 : 

In [131]: arr = np.multiply.outer(np.arange(4), np.arange(5))In [132]: arr In [133]: 
np.add.reduceat(arr, [0, 2, 4], axis=1)Out[132]: Out[133]:array([[ 0, 0, 0, 0, 0], array([[ 0, 0， 
0], [0, 1, 2, 3, 4], [ 1, 5, 4], [ 0, 2, 4, 6, 8], [ 2, 10, 8], [ 0, 3, 6, 9, 12]]) [ 3, 15, 12]]) 


表 12-2: Ufunc 的 方法 


方法 说 明 
reduce(x) 通过 连续 执行 原始 运算 的 方式 对 值 进行 聚合 
accumulate(x) 聚合 值 ， 保 留 所 有 局 部 聚合 结果 
reduceat(x, bins) “局 部 ” 约 简 (也 就 是 groupby) 。 约 简 数 据 的 各 个 切片 以 产生 聚合 
型 数组 
outer(x, y) 对 x 和 y 中 的 每 对 元 素 应 用 原始 运算 。 结 果 数 组 的 形状 为 x.shape + 
y.shape 
自 定义 ufunc 


有 两 个 工具 可 以 让 你 将 自 定义 函数 像 ufunc 那 样 使 用 。numpy.frompyfunc 接 受 一 个 Python 函 数 
以 及 两 个 分 别 表 示 输 入 输出 参数 数量 的 整数 。 例 如 ， 下 面 是 一 个 能 够 实现 元 素 级 加 法 的 简单 
本 数 : 


In [134]: def add_elements(x, y): .....: return x + yln [135]: add_them = 
np.frompyfunc(add_elements, 2, 1)In [136]: add them(np.arange(8), np.arange(8))Out[136]: 
array([0, 2, 4, 6, 8, 10, 12, 14], dtype=object) 


用 frompyfunc 创 建 的 函数 总 是 返回 Python 对 象 数组 ， 这 一 点 很 不 方便 。 幸 运 的 是 ， 还 有 另 一 


个 办 法 ， 即 numpy.vectorize。 虽然 没有 frompyfunc 那 么 强大 ， 但 它 在 类 型 推断 方面 要 更 智能 
一 些 . 


In [137]: add_ them = np.vectorize(add_elements, otypes=[np.float64])In [138]: 
add them(np.arange(8), np.arange(8))Out[138]: array([ 0., 2., 4., 6., 8., 10., 12., 14.]) 


虽然 这 两 个 图 数 提 供 了 一 种 创建 ufunc 型 函数 的 手段 ， 但 它们 非常 慢 ， 因 为 它们 在 计算 每 个 元 
素 时 都 要 执行 一 次 Python 函 数 调 用 ， 这 自然 会 比 NumPy 自 带 的 基于 C 的 ufunc 慢 很 多 : 


In [139]: arr = randn(10000)In [140]: %timeit add_them(arr, arr)100 loops, best of 3: 2.12 ms 
per loopln [141]: %timeit np.add(arr, arr)100000 loops, best of 3: 11.6 us per loop 


为 此 ，Python 科 学 计算 社区 正在 开发 一 些 项 目 ， 力 求 使 自 定义 ufunc 的 性 能 接近 内 置 的 那些 。 
结构 化 和 记录 式 数组 


你 可 能 已 经 注意 到 了 ， 到 目前 为 止 我 们 所 讨论 的 ndarray 都 是 一 种 同 质数 据 容器 ， 也 就 是 说 ， 
在 它 所 表示 的 内 存 块 中 ， 各 元 素 占 用 的 字 节 数 相同 (具体 根据 dtype 而 定 ) 。 从 表面 上 ， 它 似 
平 不 能 用 于 表示 异 质 或 表格 型 的 数据 。 结 构 化 数组 是 一 种 特殊 的 ndarray， 其 中 的 各 个 元 素 可 
以 被 看 做 C 语 言 中 的 结构 体 〈struct， 这 就 是 "结构 化 "的 由 来 ) 或 SQL 表 中 带 有 多 个 命名 字段 的 
行 : 

In [142]: dtype = [(x, np.float64), ('y', np.int32)]In [143]: sarr = np.array([(1.5, 6), (np.pi, -2)], 
dtype=dtype)ln [144]: sarrOut[144]:array([(1.5, 6), (3.141592653589793, -2)], dtype=[(X， 
‘<f8'), (y', "<i4)]) 


定义 结构 化 dtype (请 参考 NumPy 的 在 线 文档 ) 的 方式 有 很 多 。 最 典型 的 办 法 是 元 组 列表 ， 各 
元 组 的 格式 为 (field_namefield_data_type)。 这 样 ， 数 组 的 元 素 就 成 了 元 组 式 的 对 象 ， 该 对 象 
中 各 个 元 素 可 以 像 字典 那样 进行 访问 : 


In [145]: sarr[0]Out[145]: (1.5, 6)In [146]: sarr[0][y]Out[146]: 6 


字段 名 保存 在 dtype.names 属 性 中 。 在 访问 结构 化 数组 的 某 个 字段 时 ， 返 回 的 是 该 数据 的 视 
图 ， 所 以 不 会 发 生 数据 复制 : 


In [147]: sarr[x]oOut[147]: array([ 1.5 , 3.1416]) 
铸 套 dtype 和 多 维 字段 
在 定义 结构 化 dtype 时 ， 你 可 以 再 设置 一 个 形状 〈 可 以 是 一 个 整数 ， 也 可 以 是 一 个 元 组 ) 


In [148]: dtype = [(x, np.int64, 3), (y, np.int32)]In [149]: arr = np.zeros(4, dtype=dtype)In 
[150]: arrOut[150]:array([([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0), ([0, 0, 0], 0)], dtype=[(x， 
"<i8", (3,)), ('y", '<i4")]) 


在 这 种 情况 下 ， 各 个 记录 的 x 字段 所 表示 的 是 一 个 长 度 为 3 的 数组 : 

In [151]: arrfo][x]Out[151]: array([0, 0, 0]) 

访问 arr[x] 即 可 得 到 一 个 二 维 数组 ， 而 不 是 前 面 那 个 例子 中 的 一 维 数组 : 
In [152]: arr[x]Out[152]:array([[0, 0, 0], [0, 0, 0], [0, 0, 0], [0, 0, 0]]) 


这 就 使 我 们 能 用 单个 数组 的 内 存 块 存放 复 末 的 艇 套 结 构 。 既 然 dtype 可 以 想 怎 么 复 杀 就 怎么 复 
条 ， 那 为 什么 不 试 试 嵌 套 dtype 呢 ? 下 面 是 一 个 简单 的 例子 : 


In [153]: dtype = [(x', [(a', f8) ('b', f4')]), ('y', np.int32)]In [154]: data = np.array([((1, 2), 5), 
((3, 4), 6)], dtype=dtype)ln [155]: data[x]Out[155]:array([(1.0, 2.0), (3.0, 4.0)], dtype=[(a，， 
'<f8"'), (b' '<{f4')])In [156]: data[y]Out[156]: array([5, 6], dtype=int32)In [157]: data['x"] 
[a]oOut[157]: array([ 1., 3.]) 


不 难看 出 ， 可 变形 状 的 字段 和 谋 套 记录 是 一 种 非常 强大 的 功能 。 与 此 相 比 ，pandas 的 
DataFrame 并 不 直接 支持 该 功能 ， 但 它 的 分 层 索 引 机 制 跟 这 个 差不多 。 


为 什么 要 用 结构 化 数组 


跟 pandas 的 DataFrame 相 比 ，NumPy 的 结构 化 数组 是 一 种 相对 较 低级 的 工具 。 它 可 以 将 单个 
内 存 块 解释 为 带 有 任意 复 末 找 套 列 的 表格 型 结构 。 由 于 数组 中 的 每 个 元 素 在 内 存 中 都 被 表示 
为 固定 的 字 节 数 ， 所 以 结构 化 数组 能 够 提供 非常 快速 高 效 的 磁盘 数据 读 写 〈 包 括 内 存 映 像 ， 
稍 后 将 详细 介绍 ) 、 网 络 传输 等 功能 。 


结构 化 数组 的 另 一 个 常见 用 法 是 ， 将 数据 文件 写成 定 长 记录 字 节 流 ， 这 是 C 和 C++ 代 码 中 常见 
的 数据 序列 化 手段 (业界 许多 历史 系统 中 都 能 找 得 到 ) 。 只 要 知道 文件 的 格式 (记录 的 大 
小 、 元 素 的 顺序 、 字 节 数 以 及 数据 类 型 等 ) ， 就 可 以 用 np.fromfile 将 数据 读 入 内 存 。 这 种 用 法 
超出 了 本 书 的 范围 ， 只 要 知道 有 这 么 一 回 事 就 可 以 了 。 


结构 化 数组 操作 : numpy.lib.recfunctions 


适用 于 结构 化 数组 的 函数 没有 DataFrame 那 么 多 。NumPy 模 块 numpy.lib.recfunctions 中 有 一 
些 用 于 增删 字段 或 执行 基本 连接 运算 的 工具 。 对 于 这 些 工 具 ， 我 们 需要 记 住 的 是 : 一 般 都 需 
要 创建 一 个 新 数组 以 便 对 dtype 进 行 修改 (上 比如 添加 或 删除 一 列 ) 。 这 些 函 数 就 留 给 有 兴趣 的 
读者 自己 去 研究 了 ， 因 为 本 书 中 不 会 用 到 它们 。 


更 多 有 关 排 序 的 话题 


跟 Python 内 置 的 列表 一 样 ，ndarray 的 sort 实 例 方 法 也 是 就 地 排序 。 也 就 是 说 ， 数 组 内 容 的 重 
新 排列 是 不 会 产生 新 数组 的 : 


In [158]: arr = randn(6)In [159]: arr.sort()In [160]: arrOut[160]: array([-1.082 , 0.3759, 0.8014, 
1.1397, 1.2888, 1.8413]) 


在 对 数组 进行 就 地 排序 时 要 注意 一 点 : 如 果 目 标 数组 只 是 一 个 视图 ， 则 原始 数组 将 会 被 修 
改 : 


In [161]: arr = randn(3, 5)In [162]: arrOut[162]:array([[-0.3318, -1.4711, 0.8705, -0.0847, 
-1.1329], [-1.0111, -0.3436, 2.1714, 0.1234, -0.0189], [ 0.1773, 0.7424, 0.8548, 1.038 ， 
-0.329 ]])In [163]: arr[:, 0].sort() # Sort first column values in-placeln [164]: 
arrOut[164]:array([[-1.0111, -1.4711, 0.8705, -0.0847, -1.1329], [-0.3318, -0.3436, 2.1714, 
0.1234, -0.0189], [ 0.1773, 0.7424, 0.8548, 1.038 , -0.329 ]]) 


相反 ，numpy.sort 会 为 原 数组 创建 一 个 已 排序 副本 。 它 所 接受 的 参数 〈 比 如 kind， 稍 后 介绍 ) 
跟 ndarray.sort 一 样 : 


In [165]: arr = randn(5)In [166]: arrOut[166]: array([-1.1181, -0.2415, -2.0051, 0.7379, 
-1.0614])In [167]: np.sort(arr)Out[167]: array([-2.0051, -1.1181, -1.0614, -0.2415, 0.7379])In 
[168]: arrOut[168]: array([-1.1181, -0.2415, -2.0051, 0.7379, -1.0614]) 


这 两 个 排序 方法 都 可 以 接受 一 个 axis 参 数 ， 以 便 治 指定 轴 向 对 各 块 数据 进行 单独 排序 : 


In [169]: arr = randn(3, 5)In [170]: arrOut[170]:array([[ 0.5955, -0.2682, 1.3389, -0.1872, 
0.9111], [-0.3215, 1.0054, -0.5168, 1.1925, -0.1989], [ 0.3969, -1.7638, 0.6071, -0.2222, 
-0.2171]])In [171]: arr.sort(axis=1)In [172]: arrOut[172]:array([[-0.2682, -0.1872, 0.5955， 
0.9111, 1.3389], [-0.5168, -0.3215, -0.1989, 1.0054, 1.1925], [-1.7638, -0.2222, -0.2171, 
0.3969, 0.6071]]) 


你 可 能 注意 到 了 ， 这 两 个 排序 方法 都 不 可 以 被 设置 为 降序 。 其 实 这 也 无 所 谓 ， 因 为 数组 切片 
会 产生 视图 (也 就 是 说 ， 不 会 产生 副本 ， 也 不 需要 任何 其 他 的 计算 工作 ) 。 许 多 Python 用 户 
都 很 熟悉 一 个 有 关 列 表 的 小 技巧 : values[::-1] 可 以 返回 一 个 反 序 的 列表 。 对 ndarray 也 是 如 
此 : 


In [173]: arr[:, ::-1]Out[173]:array([[ 1.3389, 0.9111, 0.5955, -0.1872, -0.2682], [ 1.1925, 
1.0054, -0.1989, -0.3215, -0.5168], [ 0.6071, 0.3969, -0.2171, -0.2222, -1.7638]]) 


间接 排序 : argsort 和 lexsort 


在 数据 分 析 工 作 中 ， 常 常 需要 根据 一 个 或 多 个 键 对 数据 集 进 行 排序 。 例 如 ， 一 个 有 关 学 生 信 
息 的 数据 表 可 能 需要 以 姓 和 名 进行 排序 ( 先 姓 后 名 ) 。 这 就 是 间接 排序 的 一 个 例子 ， 如 果 你 
阅读 过 有 关 pandas 的 章节 ， 那 就 已 经 见 过 不 少 高 级 例子 了 。 给 定 一 个 或 多 个 键 ， 你 就 可 以 得 
到 一 个 由 整数 组 成 的 索引 数组 (我 杀 切 地 称 之 为 索引 器 ) ， 其 中 的 索引 值 说 明了 数据 在 新 顺 
序 下 的 位 置 。argsort 和 numpy.lexsort 就 是 实现 该 功能 的 两 个 主要 方法 。 下 面 是 一 个 简单 的 例 
子 : 


In [174]: values = np.array([5, 0, 1, 3, 2])In [175]: indexer = values.argsort()In [176]: 
indexerOut[176]: array([1, 2, 4, 3, 0])In [177]: values[indexer]Out[177]: array([0, 1, 2, 3, 5]) 


下 面 这 段 代 码 根据 数组 的 第 一 行 对 其 进行 排序 : 


In [178]: arr = randn(3, 5)In [179]: arr[0] = valuesln [180]: arrOut[180]:array([[ 5., 0., 1., 3., 
2. ], [-0.3636, -0.1378, 2.1777, -0.4728, 0.8356], [-0.2089, 0.2316, 0.728 , -1.3918, 
1.9956]])In [181]: arr[:, arr[0].argsort()|Out[181]:array([[ 0., 1., 2. , 3. , 5. ], [-0.1378, 2.1777， 
0.8356, -0.4728, -0.3636], [ 0.2316, 0.728 , 1.9956, -1.3918, -0.2089]]) 


lexsort 跟 argsort 差 不 多 ， 只 不 过 它 可 以 一 次 性 对 多 个 键 数 组 执行 间接 排序 (字典 序 ) 。 假 设 
我 们 想 对 一 些 以 姓 和 名 标识 的 数据 进行 排序 : 


In [182]: first name = np.array([Bob',，Jane'，Steve ，Bi，Barbara])ln [183]: last_name = 
np.array([Jones',，Arnold, 'Arnold，Jones'，Walters'])In [184]: sorter = 
np.lexsort((first_name, last name))ln [185]: zip(last _ name[sorten]， 
first_name[sorter])Out[185]:[(‘Arnold', 'Jane'), (Arnold', 'Steve'), (Jones'", 'Bill'), (Jones， 
'Bob'), (‘Walters', 'Barbara')] 


刚 开 始 使 用 lexsort 的 时 候 可 能 会 比较 容易 头 鄙 ， 这 是 因为 键 的 应 用 顺序 是 从 最 后 一 个 传人 的 
算 起 的 。 不 难看 出 ，last_name 是 先 于 first_name 被 应 用 的 。 


注意 : Series 和 DataFrame 的 sort_index 以 及 Series 的 order 方 法 就 是 通过 这 些 函 数 的 变 体 〈 它 
们 还 必须 考虑 缺失 值 ) 实现 的 。 


其 他 排序 算法 


稳定 的 (stable) 排序 算法 会 保持 等 价 元 素 的 相对 位 置 。 对 于 相对 位 置 具有 实际 意义 的 那些 间 
接 排序 而 言 ， 这 一 点 非常 重要 : 

In [186]: values = np.array(['2:first',, '2:second', '1:first',, "1:second', '1:third'])In [187]: key = 
np.array([2, 2, 1, 1, 1])In [188]: indexer = key.argsort(kind="mergesort')In [189]: 
indexerOut[189]: array([2, 3, 4, 0, 1])In [190]: values.take(indexer)Out[190]:array([ 1:first， 
'1:second', '1:third", '2:first', '2:second'], dtype='|S8') 


mergesort (合并 排序 ) 是 唯一 的 稳定 排序 
译注 5 
， 它 保证 有 O(n log n) 的 性 能 (空间 复 亲 度 ) ， 但 是 其 平均 性 能 比 默认 的 quicksort (快速 排 


序 ) 要 差 。 表 12-3 列 出 了 可 用 的 排序 算法 及 其 相关 的 性 能 指标 。 大 部 分 用 户 完 全 不 需要 知道 
这 些 东 西 ， 但 了 解 一 下 总 是 好 的 。 


表 12-3: 数组 排序 算法 


kind 速度 ”稳定 性 工作 空间 最 坏 的 情况 
'quicksort' ] 否 0 O(n’) 
'mergesort' 2 是 n/2 O{n log n) 
'heapsort' 3 否 0 O(n log n) 


警告 : 到 编写 本 书 时 为 止 ，Python 对 象 (dtype=object) 数组 可 用 的 排序 算法 只 有 
quicksort。 也 就 是 说 ， 在 处 理 Python 对 象 时 如 果 需 要 用 到 稳定 排序 ， 那 就 得 自己 想 办 法 了 。 


numpy.searchsorted : 在 有 序数 组 中 查找 元 素 


searchsorted 是 一 个 在 有 序数 组 上 执行 二 分 查找 的 数组 方法 ， 只 要 将 值 插 入 到 它 返 回 的 那个 位 
置 就 能 维持 数组 的 有 序 性 : 


In [191]: arr = np.array([0, 1, 7, 12, 15])In [192]: arr.searchsorted(9)Out[192]: 3 
你 可 能 已 经 想到 了 ， 传 和 一 组 值 就 能 得 到 一 组 索引 : 
In [193]: arr.searchsorted([0, 8, 11, 16])Out[193]: array([0, 3, 3, 5]) 


从 上 面 的 结果 中 可 以 看 出 ， 对 于 元 素 0，searchsorted 会 返回 0。 这 是 因为 其 默认 行为 是 返回 相 
等 值 组 的 左 侧 索引 : 


In [194]: arr = np.array([0, 0, 0, 1, 1, 1, 1])In [195]: arr.searchsorted([0, 1])Out[195]: array([0， 
3])In [196]: arr.searchsorted([0, 1], side='right')Out[196]: array([3, 7]) 


再 来 看 searchsorted 的 另 一 个 用 法 ， 假 设 我 们 有 一 个 数据 数组 〈 其 中 的 值 在 0 到 10000 之 
间 ) ， 还 有 一 个 表示 “ 面 元 边界 ”的 数组 ， 我 们 希望 用 它 将 数据 数组 拆 分 开 


In [197]: data = np.floor(np.random.uniform(0, 10000, size=50))In [198]: bins = np.array([0， 
100, 1000, 5000, 10000])In [199]: dataOut[199]:array([ 8304., 4181., 9352., 4907., 3250,， 
8546., 2673., 6152., 2774., 5130., 9553., 4997., 1794., 9688., 426., 1612., 651., 8653., 
1695., 4764., 1052., 4836., 8020., 3479., 1513., 5872., 8992., 7656., 4764., 5383., 2319., 
4280., 4150., 8601., 3946., 9904., 7286., 9969., 6032., 4574., 8480., 4298., 2708., 7358., 
6439., 7916., 3899., 9182., 871., 7973.]) 


然后 ， 为 了 得 到 各 数据 点 所 属 区 间 的 编号 (其 中 1 表示 面 元 [0,100)) ， 我 们 可 以 直接 使 用 
searchsorted : 


In [200]: labels = bins.searchsorted(data)In [201]: labelsOut[201]:array([4, 3, 4, 3, 3, 4, 3, 4, 
3, 4, 4, 3, 3, 4, 2, 3, 2, 4, 3, 3, 3, 3, 4, 3, 3, 4, 4, 4, 3, 4, 3, 3, 3, 4, 3, 4, 4, 4, 4, 3, 4, 3, 3, 4, 4, 
4, 3, 4, 2, 4]) 


通过 pandas 的 groupby 使 用 该 结果 即 可 非常 轻松 地 对 原 数据 集 进 行 拆 分 : 


In [202]: Series(data).groupby(labels).mean()Out[202]:2 649.3333333 3411.5217394 
7935.041667 


注意 ， 其 实 NumPy 的 digitize 函 数 也 可 用 于 计算 这 种 面 元 编号 : 


In [203]: np.digitize(data, bins)Out[203]:array([4, 3, 4, 3, 3, 4, 3, 4, 3, 4, 4, 3, 3, 4, 2, 3, 2, 4, 
3, 3, 3, 3, 4, 3, 3, 4, 4, 4, 3, 4, 3, 3, 3, 4, 3, 4, 4, 4, 4, 3, 4, 3, 3, 4, 4, 4, 3, 4, 2, 4]) 


译注 5 : 只 是 这 三 种 里 面 唯一 稳定 的 而 已 。 
NumPy 的 matrix 类 


跟 其 他 面向 矩阵 算 和 线性 代数 的 语言 相 比 (如 MATLAB、GAUSS 等 ) ，NumPy 的 线性 代数 语 
法 往往 比较 繁琐 。 其 中 一 个 原因 是 ， 和 矩阵 操作 需要 用 到 numpy.dot。 ee 
也 不 同 ， 所 以 有 时 不 那么 容易 将 代码 移植 到 Python 译注 6。 从 二 维 数组 中 选取 一 行 〈 比 如 
X[1,:]) 或 一 列 (如 X[:,1]) 将 会 产生 一 个 一 维 数 组 ， 而 在 MATLAB 中 则 ne 


In [204]: X = np.array([[ 8.82768214, 3.82222409, -1.14276475, 2.04411587], .…: [ 
3.82222409, 6.75272284, 0.83909108, 2.08293758], .…: [-1.14276475, 0.83909108， 
5.01690521, 0.79573241], .…: [ 2.04411587, 2.08293758, 0.79573241, 6.24095859]])In 
[205]: X[:, 0] # 一 维 的 Out[205]: array([ 8.8277, 3.8222, -1.1428, 2.0441])In [206]: y = X[:, :1] 
# 切片 操作 可 产生 二 维 结果 In [207]: XOut[207]:array([[ 8.8277, 3.8222, -1.1428, 2.0441], [ 
3.8222, 6.7527, 0.8391, 2.0829], [-1.1428, 0.8391, 5.0169, 0.7957], [ 2.0441, 2.0829， 
0.7957, 6.241 J])In [208]: yOut[208]:array([[ 8.8277], [ 3.8222], [-1.1428], [ 2.0441]]) 


在 这 个 问题 中 ， 积 yTxy 会 被 表达 成 下 面 这 个 样子 : 
In [209]: np.dot(y.T, np.dot(X, y))Out[209]: array([[ 1195.468]]) 


为 了 不 用 编写 大 量 的 矩阵 运算 代码 ，NumPy 提 供 了 一 个 matrix 类 ， 其 索引 行为 更 像 MATLAB : 
单行 或 列 会 以 二 维 形式 返回 ， 且 使 用 星 号 (*) 的 乘法 直接 就 是 和 矩阵 乘法 。 上 面 那些 运算 用 
numpy.matrix 来 编写 的 话 ， 应 该 是 下 面 这 个 样子 : 

In [210]: xm = np.matrix(X)In [211]: ym = XmM[:, 0]In [212]: XMmOut[212]:matrix([[ 8.8277， 
3.8222, -1.1428, 2.0441], [ 3.8222, 6.7527, 0.8391, 2.0829], [-1.1428, 0.8391, 5.0169, 


0.7957], [ 2.0441, 2.0829, 0.7957, 6.241 J]])In [213]: ymoOut[213]:matrix([[ 8.8277], [ 3.8222], 
[-1.1428], [ 2.0441]])In [214]: ym.T Xm ymOut[214]: matrix([[ 1195.468]]) 


matrix 还 有 一 个 特殊 的 属性 |， 其 功能 是 返回 和 矩阵 的 逆 : 

In [215]: Xm.1* XOut[215]:matrix([[ 1., -0., -0., -0.], [ 0., 1., 0., 0.], [0., 0., 1., 0.], [ 0., 0., 0., 
1.]]) 

我 不 建议 用 numpy.matrix 替 代 正 规 的 ndarray， 因 为 它们 的 应 用 面 较 窄 。 对 于 个 别 带 有 大 量 线 
性 代数 运算 的 函数， 可 以 将 琐 数 参数 转换 为 matrix 类 型 ， 然 后 在 返回 之 前 用 np.asarray (不 会 
复制 任何 数据 ) 将 其 转换 回 正规 的 ndarray。 

译注 6 

: 原文 有 歧义 ， 根 据 上 下 文 的 意思 ， 应 该 是 说 不 容易 把 其 他 语言 的 代码 移植 过 来 。 

高 级 数组 输入 输出 


我 在 第 4 章 中 讲 过 ，np.save 和 np.load 可 用 于 读 写 磁 瘟 上 以 二 进 制 格式 存储 的 数组 。 其 实 还 有 
一 些 工具 可 用 于 更 为 复杂 的 场景 。 尤 其 是 内 存 映 像 (memory map) ， 它 使 你 能 处 理 在 内 存 中 
放下 的 数据 集 。 


内 存 映像 文件 


内 存 映 像 文 件 是 一 种 将 磁 瘟 上 的 非常 大 的 二 进 制 数据 文件 当做 内 存 中 的 数组 进行 处 理 的 方 
式 。NumPy 实 现 了 一 个 类 似 于 ndarray 的 memmap 对 象 ， 它 允许 将 大 文件 分 成 小 段 进行 读 写 ， 
而 不 是 一 次 性 将 整个 数组 读 入 内 存 。memmap 也 拥有 跟 普 通 数组 一 样 的 方法 ， 因 此 ， 基 本 上 
只 要 是 能 用 于 ndarray 的 算法 就 也 能 用 于 memmap。 


使 用 函数 np.memmap 并 传人 一 个 文件 路 径 、 数 据 类 型 、 形 状 以 及 文件 模式 ， 即 可 创建 一 个 新 


的 memmap : 


In [216]: mmap = np.Mmemmap(mymmap,', dtype='float64', mode='w+', shape=(10000, 
10000))In [217]: mmapOut[217]:memmap([[ 0., 0., 0., ..., 0., 0., 0.], [0., 0., 0., ..., 0., 0., 0.], [ 
0., 0., 0., ..., 0., 0., 0.], .…, [0., 0., 0., ..., 0., 0., 0.], [0., 0., 0., ..., 0., 0., 0.], [0., 0., 0., ..., 0., 
0., 0.]]) 


对 memmap 切 片 将 会 返回 磁盘 上 的 数据 的 视图 : 
In [218]: section = mmap[:5] 


如 果 将 数据 赋值 给 这 些 视图 : 数据 会 先 被 缓存 在 内 存 中 (就 像 是 Python 的 文件 对 象 ) ， 调 用 
flush 即 可 将 其 写 入 磁盘。 


In [219]: section[:] = np.random.randn(5, 10000)In [220]: mmap.flush()In [221]: 
mmapOut[221]:memmap([[-0.1614, -0.1768, 0.422 , ..., -0.2195, -0.1256, -0.4012], [ 0.4898, 
-2.2219, -0.7684, ..., -2.3517, -1.0782, 1.3208], [-0.6875, 1.6901, -0.7444, ..., -1.4218, 
-0.0509, 1.2224], ..., [0.,0.,0.,...,0.,0.,0.],[0.,0.,0.,..,0.,0.,0.],[0.,o0.,0.,..., 
0., 0., 0. ]])In [222]: del mmap 


只 要 某 个 内 存 映像 超出 了 作用 域 ， 它 就 会 被 垃圾 回收 器 回收 ， 之 前 对 其 所 做 的 任何 修改 都 会 
被 写 人 磁盘 。 当 打开 一 个 已 经 存在 的 内 存 映像 时 ， 仍 然 需要 指明 数据 类 型 和 形状 ， 因 为 磁 冀 
上 的 那个 文件 只 是 一 块 二 进 制 数据 而 已 ， 没 有 任何 元 数据 : 


In [223]: mmap = np.Mmemmap(mymmap', dtype='float64', shape=(10000, 10000))In [224]: 
mmapOut[224]:memmap([[-0.1614, -0.1768, 0.422 , ..., -0.2195, -0.1256, -0.4012], [ 0.4898, 
-2.2219, -0.7684, ..., -2.3517, -1.0782, 1.3208], [-0.6875, 1.6901, -0.7444, ..., -1.4218, 
-0.0509, 1.2224], ..., [0.,0.,0.,...,0.,0.,0.],[0.,0.,0.,...,0.,0.,o0.],[0.,0.,0.,..., 
0., 0., 0. ]]) 


由 于 内 存 映 像 其 实 就 是 一 个 存放 在 磁盘 上 的 ndarray， 所 以 完全 可 以 使 用 前 面 介 绍 的 结构 化 
dtype。 


HDF5 及 其 他 数组 存储 方式 


PyTables 和 h5py 这 两 个 Python 项 目 可 以 将 NumPy 的 数组 数据 存储 为 高 效 且 可 压缩 的 HDF5 格 
式 (HDF 意 思 是 “层次 化 数据 格式 ”) 。 你 可 以 安全 地 将 好 几 百 GB 甚 至 TB 的 数据 存储 为 HDF5 
格式 。 很 遗憾 ， 这 些 库 的 用 法 超出 了 本 书 的 范围 。 


PyTables 提 供 了 一 些 用 于 结构 化 数组 的 高 级 查询 功能 ， 而 且 还 能 添加 列 索引 以 提升 查询 速 
度 。 这 跟 关 系 型 数据 库 所 提供 的 表 索 引 功 能 非常 类 似 。 


性 能 建议 


使 用 NumPy 的 代码 的 性 能 一 般 都 很 不 错 ， 因 为 数组 运算 一 般 都 比 纯 Python 循 环 快 得 多 。 下 面 
大 致 列 出 了 一 些 需要 注意 的 事项 : 


将 Python 循 环 和 条 件 逻 辑 转 换 为 数组 运算 和 布尔 数组 运算 。 
:尽量 使 用 广播 。 

避免 复制 数据 ， 尽 量 使 用 数组 视图 〈 即 切片 ) 。 

-利用 ufunc 及 其 各 种 方法 。 


如 果 单 用 NumPy 无 论 如 何 都 达 不 到 所 需 的 性 能 指标 ， 就 可 以 考虑 一 下 用 C、Fortran 或 
Cython 〈 等 下 会 稍微 介绍 一 下 ) 来 编写 代码 。 我 自己 在 工作 中 经 常会 用 到 
Cython (http://cython.org) ， 因 为 它 不 用 花费 我 太 多 精力 就 能 得 到 C 语 言 那样 的 性 能 。 


连续 内 存 的 重要 性 


虽然 这 个 话题 有 点 超出 本 书 的 范围 ， 但 还 是 要 提 一 下 ， 因 为 在 某 些 应 用 场景 中 ， 数 组 的 内 存 
布局 可 以 对 计算 速度 造成 极 大 的 影响 。 这 是 因为 性 能 差别 在 一 定 程度 上 跟 CPU 的 高 速 缓存 
(cache) 体系 有 关 。 运 算 过 程 中 访问 连续 内 存 块 ( 例 如 ， 对 以 C 顺 序 存 储 的 数组 的 行 求 和 ) 
一 般 是 最 快 的 ， 因 为 内 存 子 系统 会 笃 适 当 的 内 存 块 缓存 到 超 高 速 的 L1 或 L2CPU Cache 中 


译注 7 
。 此 外 ，NumPy 的 C 语 言 基础 代码 〈 某 些 ) 对 连续 存储 的 情况 进行 了 优化 处 理 ， 这 样 就 能 避 
免 一 些 跨越 式 的 内 存 访问 。 


一 个 数组 的 内 存 布局 是 连续 的 ， 就 是 说 元 素 是 以 它们 在 数组 中 出 现 的 顺序 〈 即 Fortran 型 〈 列 
优先 ) 或 C 型 ( 行 优先 ) ) 存储 在 内 存 中 的 。 默 认 情 况 下 ，NumPy 数 组 是 以 C 型 连续 的 方式 创 
建 的 。 列 优先 的 数组 (比如 C 型 连续 数组 的 转 置 ) 也 被 称 为 Fortran 型 连续 。 通 过 ndarray 的 
flags 属 性 即 可 查看 这 些 信 息 : 


In [227]: arr_c = np.ones((1000, 1000), order='C')In [228]: arr f= np.ones((1000, 1000), 
order='F')In [229]: arr_c.flags In [230]: arr f.flags Out[229]: Out[230]: C_CONTIGUOUS : 
True C_CONTIGUOUS : FalseF_ CONTIGUOUS : False F_ CONTIGUOUS : True 
OWNDATA : True OWNDATA : True WRITEABLE : True WRITEABLE : True ALIGNED : 
True ALIGNED : True UPDATEIFCOPY : False UPDATEIFCOPY : Falseln [231]: 

arr fflags.f_contiguousOut[231]: True 


在 这 个 例子 中 ， 对 两 个 数组 的 行进 行 求 和 计算 ， 理 论 上 说 ，arr_c 会 比 arr 人 快 ， 因 为 arr_c 的 行 
在 内 存 中 是 连续 的 。 我 们 可 以 在 IPython 中 用 %timeit 来 确认 一 下 : 


In [232]: %timeit arr_c.sum(1)1000 loops, best of 3: 1.33 ms per Iloopln [233]: %timeit 
arr_f.sum(1)100 loops, best of 3: 8.75 ms per loop 


如 果 想 从 NumPy 中 提升 性 能 ， 这 里 就 应该 是 下 手 的 地 方 。 如 果 数 组 的 内 存 顺序 不 符合 你 的 要 
求 ， 使 用 copy 并 传 入 'C' 或 'F' 即 可 解决 该 问题 : 


In [234]: arr_f.copy('C').flagsOut[234]: C_CONTIGUOUS : True F_ CONTIGUOUS : False 
OWNDATA : True WRITEABLE : True ALIGNED : True UPDATEIFCOPY : False 


注意 ， 在 构造 数组 的 视图 时 ， 其 结果 不 一 定 是 连续 的 : 


In [235]: arr_c[:50].flags.contiguous In [236]: arr_c[:, :50].flagsOut[235]: True Out[236]: 
C_CONTIGUOUS : False F_ CONTIGUOUS : False OWNDATA : False WRITEABLE : True 
ALIGNED : True UPDATEIFCOPY : False 


其 他 加 速 手段 : Cython、f2py、C 


近年 来 ，Cython 项 目 (http://cython.org) 已 经 受到 了 许多 Python 程序 员 的 认可 ， 用 它 实现 的 
代码 运行 速度 很 快 (可 能 需要 与 C 或 C++ 库 交 互 ， 但 无 需 编写 纯粹 的 C 代 码 ) 。 你 可 以 将 
Cython 看 成 是 带 有 静态 类 型 并 能 嵌入 C 画 数 的 Python。 下 面 这 个 简单 的 Cython 男 数 用 于 对 一 
个 一 维 数组 的 所 有 元 素 求 和 : 


from numpy cimport ndarray, float64 tdef sum_ elements(ndarray[float64 {] arr): cdef 
Py_ssize ti, n= |en(arr) cdef float64 tresult = 0 foriin range(n): result += arr[i] return result 


Cython 人 处理 这 段 代 码 时 ， 先 将 其 翻译 为 C 人 代码， 然后 编译 这 些 C 代 码 并 创建 一 个 Python 扩 展 。 
Cython 是 一 种 诱 人 的 高 性 能 计算 方式 ， 因 为 编写 Cython 代 码 只 比 编写 纯 Python 代 码 多 花 一 点 
时 间 而 已 ， 而 且 还 能 跟 NumPy 紧 密 结合 。 一 般 的 工作 流程 是 : 得 到 能 在 Python 中 运行 的 算 

法 ， 然 后 再 将 其 翻译 为 Cython (只 需 添 加 类 型 定义 并 完成 一 些 其 他 必要 的 工作 即 可 ) 。 更 多 
信息 请 参考 该 项 目的 文档 。 


其 他 有 关 NumPy 的 高 性 能 代码 编写 手段 还 有 f2py (FORTRAN 77 和 90 的 包装 器 生成 器 ) 以 及 
利用 纯 C 语 言 编写 Python 扩展 。 


译注 7 


: 这 里 主要 考虑 的 是 预 读 机 制 以 及 缓存 块 失效 率 。 由 于 这 个 存储 层次 是 纯 硬 件 实 现 的 ， 谁 的 
程序 都 控制 不 了 ， 所 以 数据 最 好 连续 存储 。 


附录 A Python 语言 精 要 
知识 是 一 座 宝库 ， 而 实践 就 是 开启 这 座 宝 库 的 钥匙 。 
一 一 Thomas Fuller 


人 们 常常 问 我 要 有 关 学习 Python 数 据 处 理 方面 的 优质 资源 。 虽 然 市 面 上 有 许多 非常 不 错 的 讲 
解 Python 语言 的 图 书 ， 但 我 在 推荐 的 时 候 经 常 还 是 会 犹 耶 不 决 ， 因 为 它们 都 是 针对 普通 读者 
的 ， 没 有 为 那些 只 想 “ 加 载 点 儿 数 据 ， 做 点 计算 ， 再 画 点 儿 图 ”的 读者 做 专门 的 裁剪 。 其 实 有 几 
本 书 确实 是 关于 Python 科 学 计算 编程 的 ， 但 它们 是 专 为 数值 计算 和 工程 应 用 而 设计 的 : 解 微 
分 方程 、 计 算 积 分 、 做 蒙特 卡 罗 模 拟 ， 以 及 其 他 各 种 数学 方面 的 主题 ， 但 就 是 没有 数据 分 析 
和 统计 方面 的 。 由 于 本 书 的 目的 是 让 大 家 成 为 Python 数据 义理 方面 的 熟 手 ， 所 以 我 认为 有 必 
要 花 点 时 间 从 结构 化 和 非 结构 化 数据 处 理 的 角度 重点 介绍 一 些 有 关 Python 内 和 置 数据 结构 和 库 
的 最 重要 的 功能 。 我 将 只 介绍 一 些 大 致 的 信息 ， 只 要 对 本 书 的 学 习 够 用 就 行 。 


本 附录 并 没有 打算 成 为 Python 语言 的 详尽 指南 ， 只 会 对 书 中 反复 用 到 的 那些 功能 做 一 个 基本 
的 概述 。 对 于 Python 新 手 而 言 ， 我 建议 在 读 完 本 附录 后 再 看 看 Python 的 官方 教程 
(http://docs.python.org) ， 最 好 能 再 读 一 两 本 有 关 Python 通 用 编程 方面 的 优质 图 书 。 以 我 的 
观点 来 看 ， 如 果 只 需要 用 Python 进行 高 效 的 数据 分 析 工 作 ， 根 本 就 没 必要 非得 成 为 通用 软件 
编程 方面 的 专家 不 可 。 我 强烈 建议 你 用 IPython 实 验 所 有 的 代码 示例 ， 并 查看 各 种 类 型 、 画 数 
以 及 方法 的 文档 。 注 意 ， 这 些 例子 中 所 用 到 的 一 些 代 码 暂 时 还 没 必 要 解释 得 那么 详细 。 


本 书 主要 关注 的 是 能 够 处 理 大 数据 集 的 高 性 能 数组 计算 工具 。 为 了 使 用 这 些 工具 ， 你 常常 得 
先 把 那些 乱 七 八 粳 的 数据 处 理 成 漂亮 点 的 结构 化 形式 。 好 在 Python 是 一 种 最 易 上 手 的 数据 整 
形 语 言 。 你 的 Python 语言 能 力 越 强 ， 数 据 分 析 的 准备 工作 就 越 简 单 。 


Python 解释 器 
Python 是 一 种 解释 型 语言 。Python 解 释 器 是 通过 “一 次 执行 一 条 语句 "的 方式 运行 程序 的 。 标 准 
的 交互 式 Python 解 释 器 可 以 在 命令 行 上 通过 python 命 合 启 动 : 


$ pythonPython 2.7.2 (default, Oct 4 2011, 20:06:09)[GCC 4.6.1] on linux2Type "help", 
"copyright", "credits" or "license" for more information.>>> a = 5>>> print a5 


上 面 的 ">>>" 是 提示 符 ， 你 可 以 在 那里 输入 表达 式 。 要 退出 Python 解释 器 并 返回 命令 提示 符 ， 
俞 人 exit() 或 按 下 Ctrl-D 即 可 。 


运行 Python 程序 的 方式 很 简单 ， 只 需 调 用 python 并 将 一 个 .py 文件 作为 其 第 一 个 参数 即 可 。 假 
设 我 们 已 经 创建 了 一 个 hello_world.py， 其 内 容 如 下 : 


print "Hello world 
只 需 在 终端 上 输入 如 下 命令 即 可 运行 : 
$ python hello_world.pyHello world 


虽然 许多 Python 程序 员 用 这 种 方式 执行 他 们 的 所 有 Python 代码 ， 但 Python 科学 计算 程序 员 则 
更 趋向 于 使 用 IPython (一 种 加 强 的 交互 式 Python 解释 器 ) 。 第 3 章 专门 介绍 了 IPython 系 统 。 

通过 使 用 %run 命 令 ，IPython 会 在 同一 个 进程 中 执行 指定 文件 中 的 代码 。 因 此 ， 在 这 些 代码 执 
行 完 毕 之 后 ， 你 就 可 以 通过 交互 的 方式 研究 其 结果 了 。 


$ ipythonPython 2.7.2 |EPD 7.1-2 (64-bit)| (default, Jul 3 2011, 15:17:51)Type "copyright", 
"credits" or "license" for more information.IPython 0.12 -- An enhanced Interactive Python.? - 
> Introduction and overview of IPython's features.%quickref -> Quick reference.help -> 
Python's own help system.object? -> Details about 'object', use 'object??' for extra details.In 
[1]: %run hello_world.pyHello worldln [2]: 


默认 的 IPython 提 示 符 采用 的 是 一 种 编号 的 风格 (如 In [2]:) ， 而 不 是 标准 的 ">>>" 提 示 符 。 


基础 知识 


Python 语言 的 设计 特点 是 重视 可 读 性 、 简 洁 性 以 及 明确 性 。 有 些 人 甚至 将 它 看 做 “可 执行 的 伪 
码 "。 


缩 进 ， 而 不 是 大 括号 


Python 是 通过 空白 符 〈 制 表 符 或 空格 ) 来 组 织 代码 的 ， 不 像 其 他 语言 〈 如 R、C++、Java、 
Penl 等 ) 用 的 是 大 括号 。 以 for 循 环 为 例 ， 要 实现 前 面 说 的 那个 快速 排序 算法 : 


for x in array: if x < pivot: less.append(x) else: greaterappend(X) 


冒号 表示 一 段 缩 进 代 码 块 的 开始 ， 其 后 的 所 有 代码 都 必须 缩 进 相同 的 量 ， 直 到 代码 块 结束 为 
止 。 在 别 的 语言 中 ， 你 可 能 会 看 到 下 面 这 祥 的 东西 : 


for x in array{ifx< pivot { less.append(x) } else { greaterappend(x) 分 

使 用 空白 符 的 主要 好 你 是 ， 它 能 使 大 部 分 Python 代 码 在 外 观 上 看 起 来 差不多 。 也 就 是 说 ， 当 
你 阅读 某 段 不 是 自己 编写 的 (或 一 年 前 匆忙 编写 的 ) 代码 时 不 怎么 容易 出 现 " 认 知 失调 "。 在 那 
些 空白 符 无 实际 意义 的 语言 中 ， 你 可 能 会 发 现 一 些 格式 不 统一 的 代码 ， 比 如 : 

for x in array {if x < pivot { less.append(x) } else { greater.append(x) }} 

无 论 对 它 是 爱 是 恨 ， 反 正 有 意义 的 空白 符 就 是 Python 程序 员 的 生活 现实 。 再 说 了 ， 以 我 的 经 
ee - ， 它 能 使 Python 代码 具有 更 高 的 可 读 性 (至 少 比 我 用 过 其 他 语言 要 高 ) 。 虽然 第 一 眼 
看 上 去 会 觉得 比较 火星 ， 但 我 相信 不 用 多 久 你 就 会 喜欢 上 它 的 。 

注意 : 我 强烈 建议 用 4 个 空格 作为 默认 缩 进 量 ， 这 样 ， 你 的 编辑 器 就 会 将 制 表 符 蔡 换 为 4 个 

格 。 放 多 文本 编辑 器 都 有 一 个 这 样 的 设置 项 。 有 些 人 喜欢 用 制 表 符 或 其 他 数量 的 空格 ， 但 用 2 
个 空格 的 情况 非常 少见 。4 个 空格 其 实 就 是 一 种 标准 ， 绝 大 部 分 Python 程序 员 都 这 么 用 。 所 以 
我 建议 : 除非 有 特殊 的 原因 ， 否 则 就 用 4 个 空格 吧 。 

到 目前 为 止 ， 你 可 以 看 到 ，Python 语 名 还 能 不 以 分 号 结束 。 不 过 分 号 还 是 可 以 用 的 ， 比 如 在 
一 行 上 分 隔 多 条 语句 : 

a=5;b=6;c=7 


在 一 行 上 放置 多 条 语句 的 做 法 在 Python 中 一 般 是 不 推荐 的 ， 因 为 这 往往 会 使 代码 的 可 污 性 变 
差 。 


万 物 此 对 象 


Python 语言 的 一 个 重要 特点 就 是 其 对 象 模型 的 一 致 性 。Python 解 释 器 中 的 任何 数值 、 字 符 

串 、 数 据 结 构 、 画 数 、 类 、 模 块 等 都 待 在 它们 自己 的 "盒子 "里 ， 而 这 个 “盒子 "也 就 是 Python 对 
象 。 每 个 对 象 都 有 一 个 与 之 相关 的 类 型 (比如 字符 串 或 函数 ) 以 及 内 部 数据 。 在 实际 工作 当 
中 ， 这 使 得 Python 语言 变 得 非常 灵活 ， 因 为 即使 是 函数 也 能 被 当做 其 他 对 象 那样 处 理 。 


注释 
任何 前 级 为 井 号 (和 的 文本 都 会 被 Python 解释 器 忽略 掉 。 这 通常 用 于 在 代码 中 添加 注释 。 有 


时 你 可 能 只 是 想 排除 不 运行 某 些 代码 块 而 不 想 删 除 它 们 。 最 简单 的 办 法 就 是 注释 掉 那 些 代 
码 : 


results = []for line in file_handle:# 暂时 保留 空 行 # if len(line) == 0: # continue 


results.append!(line.replace('foo', 'bar')) 


轴 数 调用 和 对 象 方法 调用 


函数 的 调用 需要 用 到 国 括号 以 及 0 个 或 多 个 参数 ， 此 外 还 可 以 将 返回 值 赋值 给 一 个 变量 : 
result = f(x, y, z)g() 


几乎 所 有 的 Python 对 象 都 有 一 些 附 属 画 数 (也 就 是 方法 ) ， 它 们 可 以 访问 该 对 象 的 内 部 数 
据 。 方 法 的 调用 是 这 样 写 的 : 


obj.some_method(x, y, Zz) 

男 数 既 可 以 接受 位 置 参 数 ， 也 可 以 接受 关键 字 参 数 : 
result = f(a, b, c, d=5, e='foo') 

稍 后 将 详细 介绍 这 个 内 容 。 

变量 和 按 引 用 传递 


在 Python 中 对 变量 赋值 时 ， 你 其 实 是 在 创建 等 号 右 侧 对 象 的 一 个 引用 。 用 实际 的 例子 来 说 
吧 ， 看 看 下 面 这 个 整数 列表 : 


In [241]:a = [1, 2, 3] 
假如 我 们 将 a 赋值 给 一 个 新 变量 b : 
In [242]:b= a 


在 某 些 语言 中 ， 该 赋值 过 程 将 会 导致 数据 [1,2,3] 被 复制 。 而 在 Python 中 ，a 和 b 现 在 都 指向 同 
一 个 对 象 ， 即 原始 列表 [1,2,3] (如 图 A-1 所 示 ) 。 你 可 以 自己 验证 一 下 : 对 a 添加 一 个 元 素 ， 然 
后 看 看 b 的 情况 。 


In [243]: a.append(4)In [244]: bOut[244]: [1, 2, 3, 4] 


列表 
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图 A-1 : 指向 同一 个 对 象 的 两 个 引用 


理解 Python 引 用 的 语义 以 及 数据 复制 的 条 件 、 方 式 、 原 因 等 知识 对 于 在 Python 中 人 处理 大 数据 
集 非常 重要 。 


注意 : 赋值 (assignment) 操作 也 叫做 绑 定 (binding) ， 因 为 我 们 其 实 是 将 一 个 名 称 和 一 个 
对 象 绑 定 到 一 起 。 已 经 赋 过 值 的 变量 名 有 时 也 被 称 为 已 绑 定 变量 (bound variable) 。 


当 你 将 对 象 以 参数 的 形式 传人 入 函数 时 ， 其 实 只 是 传 入 了 一 个 引用 而 已 ， 不 会 发 生 任何 复制 。 
因此 ，Python 被 称 为 是 按 引用 传递 的 ， 而 某 些 其 他 的 语言 则 既 支 持 按 值 传递 〈 创 建 副 本 ) 又 
支持 按 引 用 传递 。 也 就 是 说 ，Python 画 数 可 以 修改 其 参数 的 内 容 。 假 设 我 们 有 下 面 这 样 的 一 
个 图 数 : 


def append element(some list, element): some listappend(element) 

根据 刚才 所 说 的 ， 下 面 这 样 的 结果 应 该 是 在 意料 之 中 的 : 

In [2]: data = [1, 2, 3]In [3]: append_element(data, 4)In [4]: dataOut[4]: [1, 2, 3, 4] 
动态 引用 ， 强 类 型 


跟 许多 编译 型 语言 (如 Java 和 C++) 相反 ，Python 中 的 对 象 引 用 没有 和 与 之 关联 的 类 型 信息 。 
下 面 这 些 代码 不 会 有 什么 问题 : 

In [245]: a = SIn [246]: type(a)Out[246]: intln [247]: a = 'foo'In [248]: type(a)Out[248]: str 
变量 其 实 就 是 对 象 在 特定 命名 空间 中 的 名 称 而 已 。 对象 的 类 型 信息 是 保存 在 它 自己 内 部 的 。 

有 些 人 可 能 会 轻率 地 认为 Python 不 是 一 种 “类 型 化 语言 "。 其 实 不 是 这 样 的。 看 看 下 面 这 个 例 
子 : 

In [249]: '5' + S$- TypeError Traceback 
(most recent call last) in <module>()----> 1'5' + STypeError: cannot concatenate 'str and 'int 
objects 

在 有 些 语言 中 (上 比如 Visual Basic) ， 字 符 串 '5' 可 能 会 被 隐 式 地 转换 为 整数 ， 于 是 就 会 得 到 
10。 而 在 另 一 些 语言 中 (比如 JavaScript) ， 整 数 5 可 能 会 被 转换 为 字符 串 ， 于 是 就 会 得 

到 '55'。 而 在 这 一 点 上 ，Python 可 以 被 认为 是 一 种 强 类 型 语言 ， 也 就 是 说 ， 所 有 对 象 都 有 一 个 
特定 的 类 型 (或 类 ) ， 隐 式 转换 只 在 很 明显 的 情况 下 才 会 发 生 ， 比 如 下 面 这 样 : 

In [250]: a = 4.5In [251]: b = 2# 这 个 操作 是 字符 串 格 式 化 ， 稍 后 介绍 In [252]: print 'a is %s, b 
is %s' % (type(aj, type(b))a is , bis In [253]: a / bOut[253]: 2.25 

了 解 对 象 的 类 型 是 很 重要 的 。 要 想 编写 能 够 处 理 多 个 不 同类 型 输入 的 画 数 就 必须 了 解 有 关 类 
型 的 知识 。 通 过 isinstance 画 数 ， 你 可 以 检查 一 个 对 象 是 否 是 某 个 特定 类 型 的 实例 : 


In [254]: a = SIn [255]: isinstance(a, int)Out[255]: True 


isinstance 可 以 接受 由 类 型 组 成 的 元 组 。 如 果 想 检查 某 个 对 象 的 类 型 是 否 属于 元 组 中 所 指定 的 
那些 : 


In [256]: a = 5; b = 4.5In [257]: isinstance(a, (int, float))Out[257]: Trueln [258]: isinstance(b， 
(int, float))Out[258]: True 


属性 和 方法 


Python 中 的 对 象 通常 都 由 有 属性 〈attribute， 即 存储 在 该 对 象 " 内 部 "的 其 他 Python 对 象 ) 又 有 
方法 “method， 与 该 对 象 有 关 的 能 够 访问 其 内 部 数据 的 函数 ) 。 它 们 都 能 通过 
obj.attribute_name 这 样 的 语法 进行 访问 : 


In [1]: a = foo'ln [2]: a.<Tab>a.capitalize a.format a.isupper a.rindex a.stripa.center a.index 
a.join a.rjust a.swapcasea.count a.isalnum a.ljust a.rpartition a.titlea.decode a.isalpha 
a.lower a.rsplit a.translatea.encode a.isdigit a.lstrip a.rstrip a.uppera.endswith a.islower 
a.partiti a.split a.zfilla.expandtabs a.isspace a.replace a.splitlinesa .find a.istitle a.rfind 
a.startswith 


属性 和 方法 还 可 以 利用 getattr 画 数 通过 名 称 进行 访问 : 
getattr(a, 'split') 


虽然 本 书 没 怎么 用 到 getattr 函 数 以 及 与 之 相关 的 hasattr 和 setattr 函 数 ， 但 是 它们 还 是 很 实用 
的 ， 尤 其 是 在 编写 通用 的 、 可 复 用 的 代码 时 。 


“ 息 子 ”类 型 

译注 1 

一 般 来 说 ， 你 可 能 不 会 关心 对 象 的 类 型 ， 而 只 是 想 知道 它 到 底 有 没有 某 些 方法 或 行为 。 上 比如 
说 ， 只 要 一 个 对 象 实现 了 和 迭代 器 协议 (iterator protocol) ， 你 就 可 以 确认 它 是 可 和 迭代 的 。 对 


于 大 部 分 对 象 而 言 ， 这 就 意味 着 它 拥有 一 个 iter 魔 术 方 法 。 当 然 ， 还 有 一 个 更 好 一 些 的 验证 办 
法 ， 即 尝试 使 用 iter 函 数 : 


def isiterable(obj): try: iter(obj) return True except TypeError: # 不 可 迭代 return False 
对 于 字符 串 以 及 大 部 分 Python 集 合 类 型 ， 该 琅 数 会 返回 True : 


In [260]: isiterable('a string') In [261]: isiterable([1, 2, 3])Out[260]: True Out[261]: Trueln 
[262]: isiterable(5)Out[262]: False 


我 常常 在 编写 需要 义理 多 类 型 输入 的 函数 时 用 到 这 个 功能 。 还 有 一 种 常见 的 应 用 场景 : 编写 
可 以 接受 任何 序列 (列表 、 元 组 、ndarray) 或 迭代 器 的 函数 。 你 可 以 先 检 查 对 象 是 不 是 列表 
(或 NumPy 数 组 ) ， 如 果 不 是 ， 就 将 其 转换 成 是 : 


if not isinstance(x, list) and isiterable(x): x = list(x) 
引入 (import) 


在 Python 中 ， 模 块 (module) 就 是 一 个 售 有 画 数 和 交 量 定义 以 及 从 其 他 .py 文件 引入 的 此 类 东 
西 的 .py 文件 。 假 设 我 们 有 下 面 这 样 一 个 模块 : 


some_module.pyPI = 3.14159def f(x): 


return x + 2def g(a, b): return at+b 

如 果 想 要 引入 some_module.py 中 定义 的 变量 和 画 数 ， 我 们 可 以 在 同一 个 目录 下 创建 另 一 个 文 
件 : 

import some_ moduleresult = some module.f(5)pi = some module.PI 

还 可 以 写成 这 样 : 

from some module import f, g, Plresult = g(5, Pl) 

通过 as 关键 字 ， 你 可 以 引入 不 同 的 变量 名 译注 2 : 

import some_module as smfrom some_module import Pl as pi, g as gfr1 = sm.f(pi)r2 = gf(6， 
pi) 

二 元 运算 符 和 比较 运算 符 

大 部 分 二 元 数学 运算 和 上 比较 运算 都 跟 我 们 想象 中 的 一 样 : 

In [263]: 5 - 7 In [264]: 12 + 21.5Out[263]: -2 Out[264]: 33.5In [265]: 5 <= 2Out[265]: False 
表 A-1 中 列 出 了 所 有 可 用 的 二 元 运算 符 。 


要 判断 两 个 引用 是 否 指向 同一 个 对 象 ， 可 以 使 用 is 关 键 字 。 如 果 想 判断 两 个 引用 是 否 不 是 指向 
同一 个 对 象 ， 则 可 以 使 用 is not : 


In [266]: a = [1, 2, 3]In [267]: b = a# 注意 ，list 函 数 始终 会 创建 新 列表 In [268]: c = list(a)In 
[269]: a is bOut[269]: Trueln [270]: a is not cOut[270]: True 


注意 ， 这 跟 比 较 运 算 "==" 不 是 一 回 事 ， 因 为 对 于 上 面 这 个 情况 ， 我 们 将 会 得 到 : 
In [271]: a == cOut[271]: True 
is 和 is not 常 常用 于 判断 变量 是 否 为 None， 因 为 None 的 实例 只 有 一 个 : 


In [272]: a = Noneln [273]: a is NoneOut[273]: True 


表 A-1: 二 元 运算 符 


运算 说 明 

a+b a 加 b 

a-b a 减 b 

a*b a 聚 以 b 

ay/b a 除 以 b 

a//b a 除 以 b 后 向 下 圆 整 ， 丢 弃 小 数 部 分 

a*b a 的 b 次 方 

a&b 如 果 a 和 b 均 为 True， 则 结果 为 True。 对 于 整数 ， 执 行 按 位 与 操作 

alb 如 果 a 和 b 任 何 一 个 为 TTue， 则 结果 为 TTue。 对 于 整数 ， 执 行 按 位 或 操作 

aAb 对 于 布尔 值 ， 如 果 a 或 b 为 True (但 不 都 为 Tue) ， 则 结果 为 True。 对 于 
整数 ， 执 行 按 位 异 或 操作 

a==b 如 果 a 等 于 b， 则 结果 为 True 

al=b 如 果 a 不 等 于 bp， 则 结果 为 True 


a<=b、a<b 如 果 a 小 于 等 于 (或 小 于 ) b， 则 结果 为 True 
a>b、a>=b 如 果 a 大 于 (或 大 于 等 于 ) b， 则 结果 为 True 


aisb 如 果 引 用 a 和 b 指 向 同一 个 Python 对 象 ， 则 结果 为 True 
aisnotb 如 果 引 用 a 和 b 指 向 不 同 的 Python 对 象 ， 则 结果 为 True 
严格 与 懒惰 


无 论 使 用 什么 编程 语言 ， 都 必须 了 解 表 达 式 是 何 时 被 求 值 的 。 看 看 下 面 这 两 个 简单 的 表达 
式 : 


a=b=c=5d=a+b*c 


在 Python 中 ， 只 要 这 些 语句 被 求 值 ， 相 关 计 算 就 会 立即 (也 就 是 严格 ) 发 生 ，d 的 值 会 被 设置 
为 30。 而 在 另 一 种 编程 范式 中 〈 上 比如 Haskell 这 样 的 纯 函 数 编程 语言 ) ，d 的 值 在 被 使 用 之 前 
是 不 会 被 计算 出 来 的 。 这 种 将 计算 推迟 的 思想 通常 称 为 延迟 计算 (lazy evaluation 


译注 3 
) 。 而 Python 是 一 种 非常 严格 的 (和 急性 子 ) 语言 。 几 乎 在 任何 时 候 ， 计 算 过 程 和 表达 式 都 是 


立即 求 值 的 。 即 使 是 在 上 面 那个 简单 的 例子 中 ， 也 是 先 计 算 b *c 的 结果 然后 再 将 其 与 a 加 起 来 
的 。 


有 一 些 Python 技 术 (尤其 是 用 到 迭代 器 和 生成 器 的 那些 ， 可 以 用 于 实现 延 妈 计算。 在 数据 密 
集 型 应 用 中 ， 当 执行 一 些 负荷 非常 高 的 计算 时 (这 种 情况 不 太 多 ) ， 这 些 技术 就 能 派 上 用 场 
可 变 和 不 可 变 的 对 象 


大 部 分 Python 对 象 是 可 变 的 (mutable) ， 上 比如 列表 、 字 上 典 、NumpPy 数 组 以 及 大 部 分 用 户 自 
定义 类 型 (类) 。 也 就 是 说 ， 它 们 所 包含 的 对 象 或 值 是 可 以 被 修改 的 。 


In [274]: a_list = [foo, 2, [4, 5]]In [275]: a_list[2] = (3, 4)In [276]: a_listOut[276]: [foo', 2, (3, 
4)] 


而 其 他 的 (如 字符 串 和 元 组 等 ) 则 是 不 可 变 的 (immutable) 


译注 4 


In [277]: a_tuple = (3, 5, (4, 5))In [278]: a_tuple[1] = four----------------------------------------------- 
-> TypeError Traceback (most recent call last) in <module>()----> 1 
a_tuple[1] = fourTypeError': tuple' object does not support item assignment 


注意 ， 仅 仅 因为 “可 以 修改 某 个 对 象 * 并 不 代表 “就 该 那么 做 "。 这 种 行为 在 编程 中 也 叫做 副作用 
(side effect) 。 例 如 ， 在 编写 一 个 函数 时 ， 任 何 副 作用 都 应 该 通过 该 函数 的 文档 或 注释 明确 
地 告知 用 户 。 即 使 可 以 使 用 可 变 对 象 ， 我 也 建议 尽量 避免 副作用 且 注 重 不 变性 
(immutability) 。 

标量 类 型 

Python 有 一 些 用 于 义理 数值 数据 、 字 符 串 、 布 尔 值 〈True 或 False) 以 及 日 期 /时 间 的 内 置 类 
型 。 表 A-2 列 出 了 主要 的 标量 类 型 。 后 面 我 们 将 单独 讨论 日 期 /时 间 的 义理 ， 因 为 它们 是 由 标准 
库 中 的 datetime 模 块 提供 的 。 


表 A-2: 标准 的 Python 标量 类 型 


类 型 说 明 

None Python 的 “null” 值 (None 只 存在 一 个 实例 对 象 ) 

str 字符 串 类 型 。Python 2.x 中 只 有 ASCll 值 ， 而 Python 3 中 则 是 Unicode 
unicode Unicode 字 符 串 类 型 

float 双 精 度 (64 位 ) 浮 点 数 。 注 意 ， 这 里 没有 专门 的 double 类 型 

bool True 或 False 

int 有 符号 整数 ， 其 最 大 值 由 平台 决定 

long 任意 精度 的 有 符号 整数 。 大 的 int 值 会 被 自动 转换 为 long 

数值 类 型 


用 于 表示 数字 的 主要 Python 类 型 是 int 和 float。 能 被 保存 为 int 的 整数 的 大 小 由 平台 决定 (是 32 
位 还 是 64 位 ) ， 但 是 Python 会 自动 将 非常 大 的 整数 转换 为 Iong， 它 可 以 存储 任意 大 小 的 整 
数 。 


In [279]: ival = 17239871In [280]: ival * 6Out[280]: 
26254519291092456596965462913230729701102721L 


浮 点 数 会 被 表示 为 Python 的 float 类 型 。 浮 点 数 会 被 保存 为 一 个 双 精 度 (64 位 ) 值 。 它 们 也 可 
以 用 科学 计数 法 表示 : 


In [281]: fval = 7.243In [282]: fval2 = 6.78e-5 

在 Python 3 中 ， 整 数 除 法 除 不 尽 时 就 会 产生 一 个 浮 点 数 : 

In [284]: 3 / 2Out[284]: 1.5 

在 Python 2.7 及 以 下 版 本 中 〈 某 些 读者 现在 用 的 可 能 就 是 

译注 5 

) ， 只 要 将 下 面 这 条 怪 模 怪 样 的 语句 添加 到 自 定 义 模块 的 顶部 即 可 修改 这 个 默认 行为 : 
from future import division 

如 果 没 加 这 和 句 的 话 ， 你 也 可 以 显 式 地 将 分 母 转 换 成 浮 点 数 


译注 6 


In [285]: 3 /float(2)Out[285]: 1.5 


要 得 到 C 风 格 的 整数 除法 (如 果 除 不 尽 ， 就 丢弃 小 数 部 分 ) ， 使 用 除 后 圆 整 运算 符 (//) 即 
可 : 


In [286]: 3 // 2Out[286]: 1 

复数 的 虚 部 是 用 j 表 示 的 : 

In [287]: cval = 1 + 2jIn [288]: cval * (1 - 2)j)Out[288]: (5+0j) 

字符 串 

很 多 人 都 是 因为 Python 强 大 而 灵活 的 字符 串 人 处 理 能 力 才 使 用 它 的 。 编 写字 符 串 字面 量 时 ， 娩 
可 以 用 单 引 号 (') 也 可 以 用 双 引 号 (") 


a='one way of writing a stringb = "another way" 


对 于 带 有 换行 符 的 多 行 字符 串 ， 可 以 使 用 三 重 引号 〔 即 "或 ") 


c=""This is a longer string thatspans multiple lines 
Python 字符 串 是 不 可 变 的 。 要 修改 字符 串 就 只 能 创建 一 个 新 的 : 


In [289]: a = 'this is a string'In [290]: a[10] = 个-------------------------------------------------------------- 
------------- TypeError Traceback (most recent call last) in <module>()----> 1 a[10] = 
fTypeError: 'str object does not support item assignmentln [291]: b = a.replace('string 
longer string')In [292]: bOut[292]: 'this is a longer string 


许多 Python 对 象 都 可 以 用 str 郴 数 转换 为 字符 串 : 


In [293]: a = 5.6 In [294]: s = str(a)In [295]: sOut[295]: '5.6" 


由 于 字符 串 其 实 是 一 串 字符 序列 ， 因 此 可 以 被 当做 某 种 序列 类 型 (如 列表 、 元 组 等 ) 进行 处 
理 : 


In [296]: s = 'python' In [297]: list(s) Out[297]: [py t', 'h', on]In [298]: s[:3]Out[298]: "pyt 


反 斜 枉 (\) 是 转 义 符 (escape character) ， 也 就 是 说 ， 它 可 用 于 指定 特殊 字符 (比如 新 行 \n 
或 unicode 字 符 ) 。 要 编写 带 有 反 斜 杠 的 字符 串 字 面 量 ， 也 需要 对 其 进行 转 义 : 


In [299]: s = '12\34'In [300]: print s12\34 


如 果 字 符 串 带 有 很 多 反 斜 杠 且 没有 特殊 字符 ， 你 就 会 发 现 这 个 办 法 很 容易 让 人 抓 狂 。 幸 运 的 
是 ， 你 可 以 在 字符 串 最 左边 引号 的 前 面 加 上 r， 它 表示 所 有 字符 应 该 按照 原本 的 样子 进行 解 
释 : 


In [301]: s = rthis\has\no\special\characters'In [302]: sOut[302]: 
'this\has\no\special\characters' 


将 两 个 字符 串 加 起 来 会 产生 一 个 新 字符 串 : 


In [303]: a = 'this is the first half "In [304]: b = 'and this is the second halfln [305]: a + 
boOut[305]: 'this is the first half and this is the second half 


字符 串 格式 化 是 另 一 个 重要 的 主题 。Python 3 带 来 了 一 些 新 的 字符 串 格 式 化 手段 ， 这 里 我 简 
要 说 明 一 下 其 主要 机 制 。 以 一 个 % 开 头 且 后 面 跟着 一 个 或 多 个 格式 字符 的 字符 串 是 需要 插入 值 
的 目标 (这 非常 类 似 于 C 语 言 中 的 printf 函 数 ) 。 看 看 下 面 这 个 字符 串 : 


In [306]: template = '%.2f %s are worth $%d' 


在 这 个 字符 串 中 ，%s 表 示 将 人 参数 格式 化 为 字符 串 ，%.2f 表 示 一 个 带 有 2 位 小 数 的 数字 ，%d 表 
示 一 个 整数 。 要 用 实 参 蔡 换 这 些 格式 化 形 参 ， 需 要 用 到 二 元 运算 符 % 以 及 由 值 组 成 的 元 组 : 


In [307]: template % (4.5560, 'Argentine Pesos', 1)Out[307]: 4.56 Argentine Pesos are worth 
$71 


字符 串 格式 化 是 一 个 很 大 的 主题 ， 控 制 值 在 结果 字符 串 中 的 格式 化 效果 的 方式 非常 多 。 我 建 
议 你 在 网 上 多 找 一 些 有 关于 此 的 资料 来 看 看 。 


这 里 之 所 以 要 专门 讨论 通用 字符 串 人 处 理 ， 是 因为 它 有 关于 数据 分 析 ， 更 多 细节 请 参阅 第 7 章 。 
布尔 值 


Python 中 的 两 个 布尔 值 分 别 宇 作 True 和 False。 比 较 运 算 和 条 件 表达 式 都 会 产生 True 或 
False。 布 尔 值 可 以 用 and 和 or 关键 字 进 行 连接 : 


In [308]: True and TrueOut[308]: Trueln [309]: False or TrueOut[309]: True 


几乎 所 有 内 置 的 Python 类 型 以 及 任何 定义 了 nonzero 魔 术 方 法 的 类 都 能 在 if 语 句 中 被 解释 为 
True 或 False : 


In [310]: a = [1, 2, 3] ...: if a: ...: print '| found something! ...:| found somethinglln [311]: b = 
.: if not b: ...: print 'Empty!’ ...:Empty! 


Python 中 大 部 分 对 象 都 有 真 假 的 概念 。 比 如 说 ， 如 果 空 序列 (列表 、 字 典 、 元 组 等 ) 用 于 控 
制 流 〈 就 像 上 面 的 空 列表 b) 就 会 被 当做 False 人 处理。 要 想 知 道 某 个 对 象 究竟 会 被 强制 转换 成 
哪个 布尔 值 ， 使 用 bool 汞 数 即 可 : 


In [312]: bool([]), bool([1, 2, 3])Out[312]: (False, True)ln [313]: bool('Hello world!'), 
bool(")Out[313]: (True, False)In [314]: bool(0), bool(1)Out[314]: (False, True) 


类 型 转换 
str、bool、int 以 及 float 等 类 型 也 可 用 作 将 值 转换 成 该 类 型 的 函数 : 


In [315]: s = '3.14159'In [316]: fval = float(s) In [317]: type(fval) Out[317]: floatln [318]: 
int(fval) In [319]: bool(fval) In [320]: bool(0)Out[318]: 3 Out[319]: True Out[320]: False 


None 
None 是 Python 的 空 值 类 型 。 如 果 一 个 豆 数 没有 显 式 地 返回 值 ， 则 隐 式 返回 None。 


In [321]:a = Noneln [322]: a is NoneOut[322]: Trueln [323]: b = SIn [324]: b is not 
NoneOut[324]: True 


None 还 是 加 数 可 选 参 数 的 一 种 常见 默认 值 : 


def add_and maybe_ multiply(a, b, c=None): result = a + bifcisnot None:result= result*c 
return result 


我 们 要 牢记 ，None 不 是 一 个 保留 关键 字 ， 它 只 是 NoneType 的 一 个 实例 而 已 
日 期 和 时 间 


Python 内 置 的 datetime 模 块 提供 了 datetime、date 以 及 time 等 类 型 。datetime 类 型 是 用 得 最 多 
的 ， 它 合并 了 保存 在 date 和 time 中 的 信息 : 


In [325]: from datetime import datetime, date, timeln [326]: dt = datetime(2011, 10, 29, 20， 
30, 21)In [327]: dt.day In [328]: dt.minuteOut[327]: 29 Out[328]: 30 


给 定 一 个 datetime 实 例 ， 你 可 以 通过 调用 其 date 和 time 方 法 提取 相应 的 date 和 time 对 象 : 


In [329]: dt.date() In [330]: dt.time()Out[329]: datetime.date(2011, 10, 29) Out[330]: 
datetime.time(20, 30, 21) 


strftime 方 法 用 于 将 datetime 格 式 化 为 字符 串 : 


In [331]: dt.strftime(%m/%d/%yY %H:%M')Out[331]: '10/29/2011 20:30' 
字符 串 可 以 通过 strptime 男 数 转 换 (解析 ) 为 datetime 对 象 : 


In [332]: datetime.strptime(‘20091031', '%Y%m%d')Out[332]: datetime.datetime(2009, 10, 
31, 0, 0) 


完整 的 格式 化 定义 请 参见 表 10-2。 


在 对 时 间 序 列 数据 进行 聚合 或 分 组 时 ， 可 能 需要 替换 datetime 中 的 一 些 字段 。 例 如 ， 将 分 和 秒 
字段 蔡 换 为 0， 并 产生 一 个 新 对 象 : 


In [333]: dt.replace(minute=0, second=0)Out[333]: datetime.datetime(2011, 10, 29, 20, 0) 
两 个 datetime 对 象 的 差 会 产生 一 个 datetime.timedelta 类 型 : 


In [334]: dt2 = datetime(2011, 11, 15, 22, 30)In [335]: delta = dt2 - dtln [336]: delta In [337]: 
type(delta)Out[336]: datetime .timedelta(17, 7179) Out[337]: datetime .timedelta 


将 一 个 timedelta 加 到 一 个 datetime 上 会 产生 一 个 新 的 datetime : 


In [338]: dtOut[338]: datetime.datetime(2011, 10, 29, 20, 30, 21)In [339]: dt + deltaOut[339]: 
datetime.datetime(2011, 11, 15, 22, 30) 


控制 流 
if、elif 和 else 


if 语句 是 一 种 最 常见 的 控制 流 语句 类 型 。 它 用 于 判断 一 个 条 件 ， 如 果 为 True， 则 执行 紧 跟 其 后 
的 代码 块 : 


if x < 0: print 'lts negative' 


一 条 if 语 句 可 以 跟 上 一 个 或 多 个 elif 块 以 及 一 个 “滴水 不 漏 "的 else 块 (如 果 所 有 条 件 都 为 
False) 


if x < 0: print 'It's negative'elif x == 0: print 'Equal to zero'elif 0 < x < 5: print 'Positive but 
smaller than 5'else: print 'Positive and larger than or equal to 5' 


如 果 任 何 一 个 条 件 为 True， 则 其 后 的 elif 或 else 块 就 不 会 执行 。 对 于 用 and 或 or 组 成 的 复合 条 
件 ， 各 条 件 是 按 从 左 到 右 的 顺序 求 值 的 ， 而 且 是 短路 型 的 : 


In [340]: a = 5; b = 7In [341]:c = 8; d = 4In [342]:ifa <b orc>d:...:print'Made itMade it 
在 本 例 中 ， 上 比较 运算 c>d 是 不 会 被 计算 的 ， 因 为 第 一 个 比较 运算 为 True。 
for 循 环 


for 循 环 用 于 对 集合 (比如 列表 或 元 组 ) 或 迭代 器 进行 迭代 。for 循 环 的 标准 语法 是 : 


forvalue in collection: # 对 value 做 一 些 处 理 


continue 关 键 字 用 于 使 for 循 环 提前 进入 下 一 次 迭代 ( 即 跳 过 代码 块 的 剩余 部 分 ) 。 看 看 下 面 
这 段 代码 ， ee i og 


sequence = [1, 2, None, 4, None, Sltotal = Ofor value in sequence: if value is None: continue 
total += value 


break 关 键 字 用 于 使 for 循 环 完全 退出 。 下 面 这 段 代 码 用 于 对 列表 的 元 素 求 和 ， 过 到 5 就 退出 : 


sequence = [1, 2, 0, 4, 6, 5, 2, 1]total_until 5 = Ofor value in sequence: if value == 5: break 
total_until_5 += value 


后 面 我 们 还 会 看 到 ， 如 果 集合 或 迭代 器 的 元 素 是 序列 类 型 (比如 元 组 或 列表 ) ， 那 么 还 可 以 
非常 方便 地 将 这 些 元 素 拆 散 成 for 语 句 中 的 多 个 变量 : 


for a, b, c in iterator: # 做 一 些 钦 理 
while 循 环 


while 循 环 定 义 了 一 个 条 件 和 一 个 代码 块 ， 只 要 条 件 不 为 False 或 循环 没有 被 break 显 式 终止， 
则 代码 块 将 一 直 不 断 地 执行 下 去 : 


x= 256total = Owhile x > 0: if total > 500: break total +=xx=x//2 
pass 


pass 是 Python 中 的 “ 空 操作 ”语句 。 它 可 以 被 用 在 那些 没有 任何 功能 的 代码 块 中 。 由 于 Python 
是 根据 空白 符 划分 代码 块 的 ， 所 以 它 的 存在 是 很 有 必要 的 : 


if x < 0: print 'negativel'elif x == 0:#TODO: 在 这 里 放 点 代码 passelse: print 'positivey 
在 开发 一 个 新 功能 时 ， 常 常会 特 pass 用 作 代码 中 的 占 位 符 : 

def f(x, y z): #TODO: 实现 这 个 加 数 ! pass 

异常 处 理 


优雅 地 义理 Python 错误 或 异常 是 构建 健壮 程序 的 重要 环节 。 在 数据 分 析 应 用 中 ， 许 多 西数 只 
对 特定 类 型 的 输入 有 效 。 例 如 ，Python 的 float 函 数 可 以 将 字符 串 转 换 为 浮 点 数 ， 但 是 如 果 输 
入 值 不 正确 就 会 产生 ValueError : 


In [343]: float(1.2345')Out[343]: 1.2345ln [344]: float(Csomething )------------------------------------ 
-一 ValueError Traceback (most recent call last) in <module>()----> 
1 float('something')ValueError: could not convert string to float: something 


假设 我 们 想 要 编写 一 个 在 出 错时 能 优雅 地 返回 输入 参数 的 改进 版 float 范 数 。 我 们 可 以 编写 一 
新 函数 ， 并 把 对 float 函 数 的 调用 放 在 一 个 try/except 块 中 : 


def attempt_float(x): try: return float(x) except: return x 
只 有 当 float(x) 引 发 异常 时 ，except 块 中 的 代码 才 会 被 执行 : 


In [346]: attempt_float(1.2345')Out[346]: 1.2345In [347]: attempt float(something')Out[347]: 
'something' 


你 可 能 已 经 注意 到 了 ，float 还 可 以 引发 ValueError 以 外 的 异常 : 


In [348]: float((1, 2))---------------------------------------- 一 -~ TypeError 
Traceback (most recent call last) in <module>()----> 1 float((1, 2))TypeError: float() argument 
must be a string or a number 


你 可 能 只 希望 义理 ValueError， 因 为 TypeError (输入 参数 不 是 字符 串 或 数值 ) 可 能 意味 着 你 
的 程序 中 存在 合法 性 bug。 要 达到 这 个 目的 ， 在 except 后 面 加 上 异常 类 型 即 可 : 


def attempt_float(x): try: return float(x) except ValueError: return x 
于 是 我 们 就 有 了 : 


In [350]: attempt_float((1, 2))------------------------------------- 一 -~ 
TypeError Traceback (most recent call last) in <module>()----> 1 attempt float((1, 2)) in 
attempt float(x) 1 def attempt_float(x): 2 try:----> 3 return float(x) 4 except ValueError: 5 
return xTypeError: float() argument must be a string or a number 


只 需 编写 一 个 由 异常 类 型 组 成 的 元 组 ( 圆 括号 是 必需 的 ) 即 可 捕获 多 个 异常 : 
def attempt_float(x): try: return float(x) except (TypeError, ValueError): return x 


有 时 你 可 能 不 想 处 理 任何 异常 ， 而 只 是 希望 有 和 一段 代 码 不 管 try 块 代码 成 功 与 否 都 能 被 执行 。 
使 用 finally 即 可 达到 这 个 目的 : 


f= open(path, 'w')try: write _ to _flle(f)finally: fclose() 


这 里 ， 文 件 句 柄 { 始 终 都 会 被 关闭 。 同 理 ， 你 也 可 以 让 某 些 代码 只 在 try 块 成 功 时 执行 ， 使 用 
else 即 可 : 


f= open(path, 'w')try: write to _file(f)except: print 'Failed'else: print 'Succeeded'finally: 
fclose() 


range 和 xrange 

range 辑 数 用 于 产生 一 组 间隔 平均 的 整数 : 

In [352]: range(10)Out[352]: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] 
可 以 指定 起 始 值 、 结 束 值 以 及 步 长 等 信息 : 


In [353]: range(0, 20, 2)Out[353]: [0, 2, 4, 6, 8, 10, 12, 14, 16, 18] 


如 你 所 见 ，range 所 产生 的 整数 不 包括 末端 值 。range 常 用 于 按 索引 对 序列 进行 迭代 : 
seq = [1, 2, 3, 4]for i in range(len(seq)): val = seqli] 


对 于 非常 长 的 范围 ， 建 议 使 用 xrange， 其 参数 跟 range 一 样 ， 但 它 不 会 预先 产生 所 有 的 值 并 将 
它们 保存 到 列表 中 〈 可 能 会 非常 大 ) ， 而 是 返回 一 个 用 于 逐个 产生 整数 的 迭代 器 。 下 面 这 段 
代码 用 于 对 0 到 9999 之 间 所 有 3 或 5 的 倍数 的 数字 求 和 : 


sum = 0fori in xrange(10000): # % 是 求 模 运算 符 if x % 3 == 0 orx%5==0:sum +=i 
注意 : 在 Python 3 中 ，range 始 终 返回 迭代 器 ， 因 此 也 就 没 必要 使 用 xrange 画 数 了 。 
三 元 表达 式 


Python 的 三 元 表达 式 (ternary expression) 人 多 许 你 将 产生 一 个 值 的 并 else 块 写 到 一 行 或 一 个 
表达 式 中 。 其 语法 如 下 所 示 : 


value = true-expr if condition else false-expr 

其 中 的 true-expr 和 false-expr 可 以 是 任何 Python 表 达 式 。 它 跟 下 面 这 种 宛 长 格式 的 效果 一 样 : 
if condition: value = true-exprelse: value = false-expr 

下 面 是 一 个 具体 点 的 例子 : 

In [354]: x = SIn [355]: 'Non-negative' if x >= 0 else 'Negative'Out[355]: 'Non-negative' 


跟 if-else 块 一 样 ， 只 有 一 个 表达 式 会 被 求 值 。 虽 然 这 可 能 会 引诱 你 总 是 使 用 三 元 表达 式 去 深 缩 
你 的 代码 ， 但 要 意识 到 ， 如 果 条 件 以 及 true 和 false 表 达 式 非常 复 厅 ， 就 可 能 会 特 牲 可 污 性 。 


数据 结构 和 序列 
Python 的 数据 结构 简单 而 强大 。 精 通 其 用 法 是 成 为 专家 级 Python 程 序 员 的 关键 环节 。 
元 组 


元 组 (tuple) 是 一 种 一 维 的 、 定 长 的 、 不 可 变 的 Python 对 象 序列 。 最 简单 的 创建 方式 是 一 组 
以 逗号 隔 开 的 值 : 


In [356]: tup = 4, 5, 6In [357]: tupOut[357]: (4, 5, 6) 


在 更 复杂 的 表达 式 中 定义 元 组 时 ， 常 常 需要 用 圆 括 号 将 值 转 起 来 ， 比 如 下 面 这 个 例子 ， 它 创 
建 了 一 个 由 元 组 组 成 的 元 组 : 


In [358]: nested tup = (4, 5, 6), (7, 8)In [359]: nested tupOut[359]: ((4, 5, 6), (7, 8)) 
通过 调用 tuple， 任 何 序列 或 迭代 器 都 可 以 被 转换 为 元 组 : 


In [360]: tuple([4, 0, 2])Out[360]: (4, 0, 2)In [361]: tup = tuple('string'")In [362]: tupOut[362]: 


(St PT 'n', 'g') 


跟 大 部 分 其 他 序列 类 型 一 样 ， 元 组 的 元 素 也 可 以 通过 方 括号 ([]) 进行 访问 。 跟 C、 C++、 
Java 之 类 的 语言 一 样 ，Python 中 的 序列 也 是 从 0 开始 索引 的 : 


In [363]: tup[0]Out[363]: 's' 


虽然 存储 在 元 组 中 的 对 象 本 身 可 能 是 可 变 的 ， 但 一 旦 创建 完毕 ， 存 放 在 各 个 插 模 中 的 对 象 就 
不 能 再 被 修改 了 : 


In [364]: tup = tuple([foo' , [1, 2], True])ln [365]: tup[2] = False------------------------------------------ 
> TypeError Traceback (most recent call last) in <module>()----> 1 
tup[2] = FalseTypeError tuple' object does not support item assignment# 不 过 In [366]: 
tup[1].append(3)In [367]: tupOut[367]: (foo', [1, 2, 3], True) 


元 组 可 以 通过 加 号 (+) 运算 符 连 接 起 来 以 产生 更 长 的 元 组 : 

In [368]: (4, None, foo') + (6, 0) + (bar,)Out[368]: (4, None, foo', 6, 0，bar ) 
跟 列 表 一 样 ， 对 一 个 元 组 乘 以 一 个 整数 ， 相 当 于 是 连接 该 元 组 的 多 个 副本 。 
In [369]: (foo, "bar)* 4Out[369]: (foo'，'bar, foo', "bar, foo, "bar, foo', "bar') 
注意 ， 对 象 本 身 是 不 会 被 复制 的 ， 这 里 涉及 的 只 是 它们 的 引用 而 已 。 
元 组 拆 包 


如 果 对 元 组 型 变量 表达 式 进 行 赋 值 ，Python 就 会 党 斌 将 等 号 右 侧 的 值 进 行 拆 包 
(unpacking) 


In [370]: tup = (4, 5, 6)In [371]: a, b, c = tupln [372]: bOut[372]: 5 

即使 是 谋 套 元 组 也 能 被 拆 包 : 

In [373]: tup = 4, 5, (6, 7)In [374]: a, b, (c, d) = tupln [375]: dOut[375]: 7 

利用 该 功能 可 以 非常 轻松 地 交换 变量 名 。 这 个 任务 在 其 他 许多 语言 中 可 能 是 下 面 这 个 样子 : 
tmp=aa= bb=tmpb,a=a,b 

变量 拆 包 功 能 常用 于 对 由 元 组 或 列表 组 成 的 序列 进行 迭代 : 

seq = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]for a, b, c in seq: pass 

另 一 个 常见 用 法 是 处 理 从 男 数 中 返回 的 多 个 值 。 积 后 将 详细 介绍 。 

元 组 方法 


由 于 元 组 的 大 小 和 内 存 不 能 被 修改 ， 所 以 其 实例 方法 很 少 。 最 有 用 的 是 count (对 列表 也 是 如 
此 ) ， 它 用 于 计算 指定 值 的 出 现 次 数 : 


In [376]: a = (1, 2, 2, 2, 3, 4, 2)In [377]: a.count(2)Out[377]: 4 


列表 


跟 元 组 相 比 ， 列 表 (list) 是 变 长 的 ， 而 且 其 内 容 也 是 可 以 修改 的 。 它 可 以 通过 方 括号 ([]) 或 
list 函 数 进行 定义 : 


In [378]: a_list = [2, 3, 7, NonelIn [379]: tup = (foo'", 'bar', 'baz')In [380]: b_list = list(tup) In 
[381]: b_list Out[381]: [foo', 'bar', "baz']In [382]: b_list[1] = 'peekaboo' In [383]: b_list 
Out[383]: [foo', ‘peekaboo', 'baz'] 


列表 和 元 组 在 语义 上 是 差不多 的 ， 都 是 一 维 序 列 ， 因 此 它们 在 许多 函数 中 是 可 以 互 换 的 。 
添加 和 移 除 元 素 

通过 append 方 法 ， 可 以 将 元 素 添加 到 列表 的 末尾 : 

In [384]: b listappend(dwarf')In [385]: b_listOut[385]: [foo', "peekaboo', 'baz', 'dwarf"] 

利用 insert 可 以 将 元 素 插入 到 列表 的 指定 位 置 : 

In [386]: b_list.insert(1, red')ln [387]: b_listOut[387]: [foo，red,，'peekaboo'， 'baz', 'dwarf] 
警告 : insert 的 计算 量 要 比 append 大 ， 因 为 后 续 的 引用 必须 被 移动 以 便 为 新 元 素 腾 地 方 。 
insert 的 逆 运 算是 pop， 它 用 于 移 除 并 返回 指定 索引 你 的 元 素 : 

In [388]: b_list.pop(2)Out[388]: 'peekaboo'In [389]: b_listOut[389]: [foo'", 'red', 'baz', 'dwarf] 
remove 用 于 按 值 删 除 元 素 ， 它 找到 第 一 个 符合 要 求 的 值 然后 将 其 从 列表 中 删除 : 


In [390]: b_list.append('foo')In [391]: b_list.remove('foo')In [392]: b_listOut[392]: [red', 'baz,", 
'dwarf', 'foo'] 


如 果 不 考虑 (使 用 append 和 remove 时 的 ) 性 能 ，Python 列 表 可 以 是 一 种 非常 不 错 的 “多 重 集 
合 " 数 据 结构 。 


通过 in 关 键 字 ， 你 可 以 判断 列表 中 是 否 含 有 某 个 值 : 
In [393]: 'dwarf in b_listOut[393]: True 


注意 ， 判 断 列 表 是 否 含有 某 个 值 的 操作 比 字典 (dict) 和 集合 (set) 慢 得 多 ， 因 为 Python 会 
对 列表 中 的 值 进行 线性 扫描 ， 而 另外 两 个 (基于 哈 希 表 ) 则 可 以 瞬间 完成 判断 。 


合并 列表 
跟 元 组 一 样 ， 用 加 号 (+) 将 两 个 列表 加 起 来 即 可 实现 合并 : 
In [394]: [4, None, foo] + [7, 8, (2, 3)]Out[394]: [4, None, 'foo', 7, 8, (2, 3)] 


对 于 一 个 已 定义 的 列表 ， 可 以 用 extend 方 法 一 次 性 添加 多 个 元 素 : 


In [395]: x = [4, None, foo]ln [396]: x.extend([7, 8, (2, 3)])In [397]: xOut[397]: [4, None, foo，， 
7, 8, (2, 3)] 


注意 ， 列 表 的 合并 是 一 种 相当 费 资 源 的 操作 ， 因 为 必须 创建 一 个 新 列表 并 将 所 有 对 象 复制 过 
去 。 而 用 extend 将 元 素 附 加 到 现 有 列表 (尤其 是 在 构建 一 个 大 列表 时 ) 就 会 好 很 多 。 因 此 ， 


everything = [for chunk in list _of lists: everything.extend(chunk) 

要 上 比 等 价 的 合并 操作 快 得 多 

everything = [for chunk in list_of_lists: everything = everything + chunk 
排序 

调用 列表 的 sort 方 法 可 以 实现 就 地 排序 (无需 创建 新 对 象 ) 

In [398]: a = [7, 2, 5, 1, 3]In [399]: a.sort()In [400]: aOut[400]: [1, 2, 3, 5, 7] 


sort 有 几 个 很 不 错 的 选项 。 一 个 是 次 要 排序 键 ， 即 一 个 能 够 产生 可 用 于 排序 的 值 的 函数 。 例 
如 ， 我 们 可 以 通过 长 度 对 一 组 字符 串 进 行 排序 : 


In [401]: b = ['saw', 'small', 'He'", 'foxes,', 'six']In [402]: b.sort(key=len)ln [403]: bOut[403]: [He, 


二 分 搜索 及 维护 有 序列 表 


内 置 的 bisect 模 块 实现 了 二 分 查找 以 及 对 有 序列 表 的 插入 操作 。bisect.bisect 可 以 找 出 新 元 素 
应 该 被 插入 到 哪个 位 置 才 能 保持 原 列表 的 有 序 性 ， 而 bisect.insort 则 确实 地 将 新 元 素 插 入 到 那 
个 位 置 上 去 : 


In [404]: import bisectln [405]: c = [1 2, 2, 2, 3, 4, 7]In [406]: bisect.bisect(c, 2)Out[406]: 4In 
[407]: bisect.bisect(c, 5)Out[407]: 6In [408]: bisect.insort(c, 6)In [409]: cOut[409]: [1, 2, 2, 2, 
3, 4, 6, 7] 


警告 :bisect 模 决 的 丽 数 不 会 判断 原 列表 是 否 是 有 序 的 ， 因 为 这 样 做 的 开销 太 大 了 。 因 此 ， 将 
它们 用 于 无 序列 表 虽 然 不 会 报错 ， 但 可 能 会 导致 不 正确 的 结果 。 


切片 


通过 切片 标记 法 ， 你 可 以 选取 序列 类 型 (数组 、 元 组 、NumPy 数 组 等 ) 的 子 集 ， 其 基本 形式 
由 索引 运算 符 ([]) 以 及 传人 其 中 的 start:stop 构 成 : 


In [410]: seq = [7, 2, 3, 7, 5, 6, 0, 1]In [411]: seq[1:5]Out[411]: [2, 3, 7, 5] 
切片 还 可 以 被 赋值 为 一 段 序列 : 


In [412]: seq[3:4] = [6, 3]In [413]: seqOut[413]: [7, 2, 3, 6, 3, 5, 6, 0, 1] 


由 于 start 素 引 人 处 的 元 素 是 被 包括 在 内 的 ， 而 stop 索 引 人 处 的 元 素 是 未 被 包括 在 内 的 ， 所 以 结果 中 
的 元 素数 量 是 stop start。 


start 或 stop 都 是 可 以 省 略 的 ， 此 时 它们 分 别 默认 为 序列 的 起 始 处 和 结尾 处 : 

In [414]: seq[:5] In [415]: seq[3:]Out[414]: [7, 2, 3, 6, 3] Out[415]: [6, 3, 5, 6, 0, 1] 
负数 索引 从 序列 的 末尾 开始 切片 : 

In [416]: seq[-4:] In [417]: seq[-6:-2]Out[416]: [5, 6, 0, 1] Out[417]: [6, 3, 5, 6] 


切片 的 语法 需要 花 点 时 间 去 适应 ， 尤 其 是 当 你 原来 用 的 是 R 或 MATLAB 时 。 图 A-2 形 象 地 说 明 
了 正 整 数 和 负 整 数 的 切片 过 程 。 


还 可 以 在 第 二 个 冒号 后 面 加 上 步 长 〈step) 。 比 如 每 隔 一 位 取出 一 个 元 素 : 
In [418]: seq[::2]Out[418]: [7, 3, 3, 6, 1] 
在 这 里 使 用 一 1 是 一 个 很 巧妙 的 办 法 ， 它 可 以 实现 列表 或 元 组 的 反 序 : 


In [419]: seq[::-1]Out[419]: [1, 0, 6, 5, 3, 6, 3, 2, 7] 


I 
和 


string[2:4] string[-5:-2] 


图 A-2 : Python 的 切片 方式 


内 置 的 序列 函数 
Python 有 一 些 很 不 错 的 序列 函数 ， 你 应 该 熟悉 它们 ， 只 要 有 机 会 就 用 。 
enumerate 


在 对 一 个 序列 进行 迭代 时 ， 常 常 需要 跟踪 当前 项 的 索引 。 下 面 是 一 种 DIY 的 办 法 : 
i = 0for value in collection: # 用 value 做 一 些 事情 i+= 1 


由 于 这 种 事情 很 常见 ， 所 以 Python 就 内 置 了 一 个 enumerate 函 数 ， 它 可 以 逐个 返回 序列 的 


(i,value) 元 组 : 


for i, value in enumerate(collection): # 用 value 做 一 些 事情 


在 对 数据 进行 素 引 时 ，enumerate 还 有 一 种 不 错 的 使 用 模式 ， 即 求 取 一 个 将 序列 值 〈 假 定 是 
一 的 ) 映射 到 其 所 在 位 置 的 字典 。 


In [420]: some _list = [foo, "bar, "baz']In [421]: mapping = dict((v, i) for i, v in 
enumerate(some list))In [422]: mappingOut[422]: {bar': 1, 'baz': 2, 'foo': 0} 


sorted 

sorted 辑 数 可 以 将 任何 序列 返回 为 一 个 新 的 有 序列 表 : 

In [423]: sorted([7, 1, 2, 6, 0, 3, 2])Out[423]: [0, 1, 2, 2, 3, 6, 7]In [424]: sorted('horse 
race')Out[424]: [' ', 'a', 'c', 'e', 'e", ho, 'r'", 'r', 's'] 

常常 将 sorted 和 set 结 合 起 来 使 用 以 得 到 一 个 由 序列 中 的 唯一 元 素 组 成 的 有 序列 表 : 

In [425]: sorted(set('this is just some string'))Out[425]: [' ', 'e", 'g', 'h', i', Y', mn '0", r', 'S", t", 
] 

Zip 

zip 用 于 将 多 个 序列 (列表 、 元 组 等 ) 中 的 元 素 “ 配 对 "， 从 而 产生 一 个 新 的 元 组 列表 : 


In [426]: seq1 = [foo', 'bar', 'baz']In [427]: seq2 = [one', two', three']ln [428]: zip(seq1, 
seq2)Out[428]: [(foo, 'one'), (‘bar', 'two'), (‘baz', 'three')] 


zip 可 以 接受 任意 数量 的 序列 ， 最 终 得 到 的 元 组 数量 由 最 短 的 序列 决定 : 


In [429]: seq3 = [False, True]ln [430]: zip(seq1, seq2, seq3)Out[430]: [(foo', 'one', False), 
(bar，two', True)] 


zip 最 常见 的 用 法 是 同时 迭代 多 个 序列 ， 还 可 以 结合 enumerate 一 起 使 用 : 


In [431]: for i, (a, b) in enumerate(zip(seq1, seq2)): ...: print(%d: %s, %s' % (i, a, b)) ...:0: 
foo, one1: bar, two2: baz, three 


对 于 “已 压缩 的 ”(zipped) 序列 ，zip 还 有 一 个 很 巧妙 的 用 法 ， 即 对 该 序列 进行 " 解 
压 ”(unzip) 。 其 实 就 是 将 一 组 行 转换 为 一 组 列 。 其 语法 看 起 来 有 点 神秘 : 


In [432]: pitchers = [(Nolan', 'Ryan'), (‘Roger', 'Clemens'"), ...: (Schilling，Curt)llIn [433]: 
first_names, last_names = zip(*pitchers)ln [434]: first_namesOut[434]: (Nolan', 'Roger,, 
'Schilling')In [435]: last_namesOut[435]: (Ryan', 'Clemens,", 'Curt') 


稍 后 我 将 详细 讨论 函数 调用 中 星 号 (*) 的 用 法 。 其 实 它 相 当 于 : 
zip(seq[0], seq[1], ..., seq[len(seq) - 1]) 
reversed 


reversed 用 于 按 逆序 迭代 序列 中 的 元 素 : 


In [436]: list(reversed(range(10)))Out[436]: [9, 8, 7, 6, 5, 4, 3, 2, 1, 0] 
字典 


字典 (dict) 可 算是 Python 中 最 重要 的 内 置 数据 结构 。 它 更 常见 的 名 字 是 哈 希 映射 (hash 
map) 或 相 联 数组 (associative array) 。 它 是 一 种 大 小 可 变 的 键 值 对 集 ， 其 中 的 键 (key) 
和 值 (value) 都 是 Python 对 象 。 创 建 字典 的 方式 之 一 是 : 使 用 大 括号 ({}) 并 用 冒号 分 隔 键 
和 值 。 


In [437]: empty_dict = 0In [438]: d1 = {a' : 'some value, 'b' : [1, 2, 3, 4]}In [439]: d1Out[439]: 
{a': 'some value'", 'b': [1, 2, 3, 4]} 


访问 (以 及 插入 、 设 置 ) 元 素 的 语法 跟 列表 和 元 组 是 一 样 的 : 


In [440]: d1[7] = "an integerln [441]: d1Out[441]: {7: an integer', 'a': 'some value', 'b': [1, 2, 3， 
4]}In [442]: d1[b']Out[442]: [1, 2, 3, 4] 


你 可 以 判断 字典 中 是 否 存在 某 个 键 ， 其 语法 跟 在 列表 和 元 组 中 判断 是 否 存 在 某 个 值 是 一 样 
的 : 


In [443]: 'b' in d1Out[443]: True 
使 用 del 关 键 字 或 pop 方 法 (删除 指定 值 之 后 将 其 返回 ) 可 以 删除 值 : 


In [444]: d1[5] = 'some value'Iln [445]: di['dummy'] = 'another value'In [446]: del d1[5]In [447]: 
ret = d1.pop(dummy')In [448]: retOut[448]: 'another value' 


keys 和 values 方 法 分 别 用 于 获取 键 和 值 的 列表 。 虽然 键 值 对 没有 特定 的 顺序 ， 但 这 两 个 函数 
会 以 相同 的 顺序 输出 键 和 值 : 


In [449]: d1.keys( In [450]: d1.values()Out[449]: [a, 'b', 7] Out[450]: [some value,', [1, 2, 3, 
4], an integer'] 


警告 : 如 果 你 正在 使 用 Python 3， 则 dict.keys() 和 dict.values() 会 返回 迭代 器 而 不 是 列表 。 
利用 update 方 法 ， 一 个 字典 可 以 被 合并 到 另 一 个 字典 中 去 : 


In [451]: d1.update(fb' : foo,'c : 12})In [452]: d1Out[452]: {7: 'an integer', 'a': 'some value,, 
'b': 'foo', 'c': 12} 


从 序列 类 型 创建 字典 


有 时 你 可 能 会 想 将 两 个 序列 中 的 元 素 两 两 配对 地 组 成 一 个 字典 。 粗 略 分 析 一 下 之 后 ， 你 可 能 
会 写 出 这 样 的 代码 : 


mapping = {}for key, value in zip(key_list, value list): mapping[key] = value 


由 于 字典 本 质 上 就 是 一 个 二 元 元 组 集 ， 所 以 我 们 完全 可 以 用 dict 类 型 琅 数 直接 处 理 二 元 元 组 列 
表 : 


In [453]: mapping = dict(zip(range(5), reversed(range(5))))In [454]: mappingOut[454]: {0: 4， 
1: 3, 2: 2, 3: 1, 4: 0} 


稍 后 我 们 将 讨论 有 关 字 典 推导 式 的 知识 ， 这 是 构造 字典 的 另 一 种 优雅 的 方式 。 
默认 值 

下 面 这 样 的 逻辑 很 常见 

if key in some dict: value = Some dict[keyjelse: value = default_value 


其 实 dict 的 get 和 pop 方 法 可 以 接受 一 个 可 供 返 回 的 默认 值 ， 于 是 ， 上 面 的 if-else 块 就 可 以 被 简 

单 地 写成 : 

value = Some dict.get(key, default_value) 

如 果 key 不 存在 ， 则 get 默 认 返 回 None， 而 pop 则 会 引发 一 个 异常 。 在 设置 值 的 时 候 ， 常 常 
并 


将 字典 中 的 值 处 理 成 别 的 集 类 型 (比如 列表 ) 。 例 如 ， 根 据 首 字 母 对 一 组 单词 进行 分 类 
终 产生 一 个 由 列表 组 成 的 字典 : 


公 
研 
[= 
取 


In [455]: words = [apple, 'bat', 'bar', 'atom', "book'"]In [456]: by_letter = 人 In [457]: for word in 
words: ...: letter = word[0] ...: if letter not in by_letter: ...: by_letter[letter] = [word] ...: else: ...: 
by_letter[lletter].append(word) ...:In [458]: by_letterOut[458]: {a': ['apple', 'atom'], 'b': [bat， 
"bar，book']} 


字典 的 setdefault 方 法 刚好 能 达到 这 个 目的 。 上 面 的 if-else 块 可 以 写成 : 
by_letter.setdefault(letter, []).append(word) 


内 置 的 collections 模 块 有 一 个 叫做 defaultdict 的 类 ， 它 可 以 使 该 过 程 更 简单 。 传 入 一 个 类 型 或 
函数 〈 用 于 生成 字典 各 插 槽 所 使 用 的 默认 值 ) 即 可 创建 出 一 个 defaultdict : 


from collections import defaultdictby_letter = defaultdict(list)for word in words: 
by_letter[word[0]].append(word) 


defaultdict 的 初始 化 器 只 需要 一 个 可 调用 对 象 ( 例 如 各 种 函数 ) ， 并 不 需要 明确 的 类 型 。 
此 ， 如 果 你 想 要 将 默认 值 设置 为 4， 只 需 传 入 一 个 能 够 返回 4 的 函数 即 可 : 


counts = defaultdict(lambda: 4) 
字典 键 的 有 效 类 型 


虽然 字典 的 值 可 以 是 任何 Python 对 象 ， 但 键 必须 是 不 可 变 对 象 ， 如 标量 类 型 (整数 、 浮 点 
数 、 字 符 串 ) 或 元 组 (元 组 中 的 所 有 对 象 也 必须 是 不 可 变 的 ) 。 这 里 的 术语 是 可 哈 希 性 
(hashability) 译注 7。 通 过 hash 函 数 ， 你 可 以 判断 某 个 对 象 是 否 是 可 哈 希 的 ( 即 可 以 用 作 字 
典 的 键 ) 


In [459]: hash('string')Out[459]: -916791888241513055SIn [460]: hash((1, 2, (2, 3)))Out[460]: 
1097636502276347782In [461]: hash((1, 2, [2, 3])) # 这 里 会 失败 ， 因 为 列表 是 可 变 的 ---------- 
ie TypeError Traceback (most recent call last) 
in <module>()----> 1 hash((1, 2, [2, 3]))# 这 里 会 失败 ， 因 为 列表 是 可 变 的 TypeError: 
unhashable type: "list' 


如 果 要 将 列表 当做 键 ， 最 简单 的 办 法 就 是 将 其 转换 成 元 组 : 
In [462]: d = fTIn [463]: d[tuple([1 2, 3])] = SIn [464]: dOut[464]: {(1, 2, 3): 5} 
集合 


集合 (set) 是 由 唯一 元 素 组 成 的 无 序 集 。 你 可 以 将 其 看 成 是 只 有 键 而 没有 值 的 字典 。 集 合 的 
创建 方式 有 二 : set 函 数 或 用 大 括号 包 起 来 的 集合 字面 量 : 


In [465]: set([2, 2, 2, 1, 3, 3])Out[465]: set([1, 2, 3])In [466]: {2, 2, 2, 1, 3, 3}Out[466]: set([1, 
2, 3]) 


集合 支持 各 种 数学 集合 运算 ， 如 并 、 交 、 差 以 及 对 称 差 等 。 表 A-3 列 出 了 常用 的 集合 方法 : 


In [467]: a = {1, 2, 3, 4, 5}In [468]: b = {3, 4, 5, 6, 7, 8}In [469]: a | b# 并 (或 ) Out[469]: 
set([1, 2, 3, 4, 5, 6, 7, 8])In [470]: a & b# 交 (与 ) Out[470]: set([3, 4, 5])In [471]: a - b# 差 
Out[471]: set([1, 2])In [472]: a ^b# 对 称 差 ( 异 或 ) Out[472]: set([1, 2, 6, 7, 8]) 


你 还 可 以 判断 一 个 集合 是 否 是 另 一 个 集合 的 子 集 ( 原 集合 包含 于 新 集合 ) 或 超 集 〈 原 集合 包 
含 新 集合 ) 


In [473]: a_set = {1, 2, 3, 4, S}In [474]: {1, 2, 3}.issubset(a_set)Out[474]: Trueln [475]: 
a_set.issuperset({1, 2, 3})Out[475]: True 


不 难看 出 ， 如 果 两 个 集合 的 内 容 相等 ， 则 它们 就 是 相等 的 : 
In [476]: {1, 2, 3} == {3, 2, 1}Out[476]: True 


表 A-3: Python 的 集合 运算 





函数 其 他 表示 法 说 明 

a.add(x) N/A 将 元 泰 x 添加 到 集合 a 

a.removelx) N/A 将 元 素 x 从 集合 a 中 删除 

a.union(b) alb a 和 b 全 部 的 唯一 元 素 

a.intersection(b) a&b a 和 b 都 有 的 元 素 

a.difference(lb) a-b a 中 不 属于 b 的 元 素 
a.symmetric_difference(b) a^b a 或 b 中 不 同时 属于 a 和 b 的 元 素 
a.issubset(b) N/A 如 果 a 的 全 部 元 素 都 包含 于 p， 则 为 True 
a.issuperset(b) N/A 如 果 b 的 全 部 元 素 都 包含 于 a， 则 为 True 


aisdisjoint{b) N/A 如 果 a 和 b 没 有 公共 元 素 ， 则 为 True 


列表 、 集 合 以 及 字典 的 推导 式 


列表 推导 式 是 最 受 欢 迎 的 Python 语言 特性 之 一 。 它 使 你 能 够 非常 简洁 地 构造 一 个 新 列表 : 只 
需 一 条 简洁 的 表达 式 ， 即 可 对 一 组 元 素 进行 过 滤 ， 并 对 得 到 的 元 素 进行 转换 变形 。 其 基本 形 
式 如 下 : 


[expr for val in collection if condition] 
这 相当 于 下 面 这 段 for 循 环 : 
result = [for val in collection: if condition: result.append(expr) 


过 滤器 条 件 可 以 省 略 ， 只 留 下 表达 式 。 例 如 ， 给 定 一 个 字符 串 列 表 ， 我 们 可 以 滤 除 长 度 小 于 
等 于 2 的 字符 串 ， 并 将 剩 下 的 字符 串 转 换 成 大 写字 母 形式 : 


In [477]: strings = ['a', 'as", 'bat', 'car', 'dove'", "python']In [478]: [x.upper() for x in strings if 
len(x) > 2]Out[478]: [BAT', 'CAR,', 'DOVE'", 'PYTHON'] 


集合 和 字典 的 推导 式 是 该 思想 的 一 种 自然 延伸 ， 它 们 的 语法 差不多 ， 只 不 过 产生 的 是 集合 和 
字典 而 已 。 字 典 推 导 式 的 基本 形式 如 下 : 


dict comp = {key-expr : value-exprforvalue in collection if condition} 
集合 推导 式 跟 列表 推导 式 非 常 相 似 ， 唯 一 的 区 别 就 是 它 用 的 是 花 括号 而 不 是 方 括号 : 
set _ comp = {exprforvalue in collection if condition} 


跟 列 表 推 导 式 一 样 ， 集 合 和 字典 的 推导 式 也 都 只 是 语法 糖 而 已 ， 但 它们 确实 能 使 代码 变 得 更 
容易 读 写 。 再 以 上 面 那个 字符 串 列表 为 例 ， 假 设 我 们 想 要 构造 一 个 集合 ， 其 内 容 为 原 列 表 字 
符 串 的 各 种 长 度 。 使 用 集合 推导 式 即 可 轻松 实现 此 功能 : 


In [479]: unique_lengths = {len(x) for x in strings}ln [480]: unique_lengthsOut[480]: set([1, 2， 
3, 4, 6]) 


再 来 看 一 个 简单 的 字典 推导 式 范 例 。 我 们 可 以 为 这 些 字符 串 创 建 一 个 指向 其 列表 位 置 的 映射 
关系 : 


In [481]: Iloc_ mapping = {val : index for index, val in enumerate(strings)}In [482]: 
loc_mappingOut[482]: {a': 0, 'as': 1, 'bat': 2, 'car': 3, 'dove': 4, 'python': 5} 


实际 上 ， 该 字典 还 可 以 这 样 构造 : 

loc_mapping = dict((val, idx) for idx, val in enumerate(strings)) 

依 我 看 ， 字 典 推导 式 版 的 代码 要 更 短 也 更 清晰 。 

注意 : 字典 和 集合 的 推导 式 是 最 近 才 加 入 到 Python 的 〈Python 2.7 和 Python 3.1+) 。 


纤 套 列表 推导 式 


假设 我 们 有 一 个 由 男孩 名 列表 和 女孩 名 列表 组 成 的 列表 〈 即 列表 的 列表 ) 
In [483]: all_data = [[Tom,', 'Billy', 'Jefferson', 'Andrew', "Wesley', 'Steven'", 'Joe'], ...: ['Susie,, 
'Casey'", "Jill, 'Ana'", 'Eva', 'Jennifer', 'Stephanie]] 


这 些 名 字 可 能 是 从 多 个 文件 中 读 取出 来 的 ， 而 且 专 门将 男孩 女孩 的 名 字 分 开 。 现 在 ， 假 设 我 
们 想 要 找 出 带 有 两 个 以 上 ( 含 ) 字母 e 的 名 字 ， 并 将 它们 放 和 人 一 个 新 列表 中 。 我 们 当然 可 以 用 
一 个 简单 的 for 循 环 来 实现 : 


names of interest = [Jfor names in all_data: enough_es = [name for name in names if 
name.count('e') > 2] 译 注 8 names_of_interest.extend(enough_es) 


实际 上 ， 整 个 运算 过 程 完全 可 以 写成 一 条 启 套 列表 推导 式 ， 如 下 所 示 : 


In [484]: result = [name for names in all_data for name in names .… if name.count('e') >= 
2]In [485]: resultOut[485]: [Jefferson', 'Wesley', 'Steven', 'Jennifer', 'Stephanie'] 


乍 看 起 来 ， 启 套 列表 推导 式 确 实 不 太 好 理解 。 推 导 式 中 for 的 部 分 是 按 嵌 套 顺 序 排列 的 ， 而 过 
滤 条 件 则 还 是 跟 之 前 一 样 是 放 在 后 面 的 。 下 面 是 另外 一 个 例子 ， 将 一 个 由 整数 元 组 构成 的 列 
表 “ 局 平 化 ”为 一 个 简单 的 整数 列表 : 

In [486]: some _ tuples = [(1, 2, 3), (4, 5, 6), (7, 8, 9)]In [487]: flattened = [x for tup in 
some_tuples for x in tupl]ln [488]: flattenedOut[488]: [1, 2, 3, 4, 5, 6, 7, 8, 9] 


其 实 你 可 以 这 样 来 记 : 钳 套 for 循 环 中 各 个 for 的 顺序 是 怎样 的 ， 散 套 推导 式 中 各 个 for 表 达 式 的 
顺序 就 是 怎样 的 。 


flattened = [Jfor tup in some tuples: for x in tup: flattened.append(x) 


你 可 以 编写 任意 多 层 的 艇 套 ， 但 是 如 果 艇 套 超过 两 三 层 的话 ， 可 能 你 就 得 思考 一 下 数据 结构 
设计 有 没有 问题 了 。 一 定 要 注意 上 面 那 种 语法 跟 * 列 表 推 导 式 中 的 列表 推导 式 " 之 间 的 区 别 。 比 
如 下 面 这 条 语句 也 是 正确 的 ， 但 结果 不 同 : 


In [229]: [[x for x in tup] for tup in some tuples] 
函数 


豆 数 是 Python 中 最 主要 也 是 最 重要 的 代码 组 织 和 复 用 手段 。 也 许 并 不 存在 拥有 超级 多 画 数 的 
东西 。 实 际 上 ， 我 严重 认为 大 部 分 程序 员 在 做 数据 分 析 工 作 时 所 编写 的 函数 不 够 多 1 从 前 面 
的 例子 中 不 难看 出 ， 加 数 是 用 def 关 键 字 声明 的 ， 并 使 用 return 关 键 字 返回 : 


def my_function(x, y, z=1.5): ifz > 1: return z * (x + y) else: return Zz / (x + y) 


同时 拥有 多 条 return 语 句 也 是 可 以 的 。 如 果 到 达 画 数 末 尾 时 没有 贡 到 任何 一 条 return 语 句 ， 则 
返回 None。 


函数 可 以 有 一 些 位 置 参 数 (positional) 和 一 些 关 键 字 参 数 (keyword) 。 关 键 字 参 数 通常 用 
于 指定 默认 值 或 可 选 参数 。 在 上 面 的 函数 中 ，Xx 和 y 是 位 置 参 数 ， 而 z 则 是 关键 字 参 数 。 也 就 是 
说 ， 该 函数 可 以 下 面 这 两 种 方式 进行 调用 : 


my_function(5, 6, z=0.7)my_function(3.14, 7, 3.5) 
轴 数 参数 的 主要 限制 在 于 : 关键 字 参 数 必 须 位 于 位 置 参数 (如 果 有 的 话 ) 之 后 。 你 可 以 任何 


顺序 指定 关键 字 参 数 。 也 就 是 说 ， 你 不 用 死记 硬 背 函数 参数 的 顺序 ， 只 要 记得 它们 的 名 字 就 
可 以 了 。 


命名 空间 、 作 用 域 ， 以 及 局 部 图 数 

画 数 可 以 访问 两 种 不 同 作用 域 中 的 变量 : 全 局 (global) 和 局 部 (local) 。Python 有 一 种 更 科 
学 的 用 于 描述 变量 作用 域 的 名 称 ， 即 命名 空间 (namespace) 。 任 何在 函数 中 赋值 的 变量 默 
认 都 是 被 分 配 到 局 部 命名 空间 (local namespace) 中 的 。 局 部 命名 空间 是 在 函数 被 调用 时 创 
建 的， 本 数 参数 会 立即 填 人 该 命名 空间 。 在 函数 执行 完 半 之 后 ， 局 部 命名 空间 就 会 被 销毁 
《会 有 一 些 例外 的 情况 ， 具 体 请 参见 后 面 介 绍 闭 包 的 那 一 节 ) 。 看 看 下 面 这 个 函数 : 

def func(): a = [] for i in range(5): a.append(i) 

调用 func() 之 后 ， 首 先 会 创建 出 空 列表 a， 然 后 添加 5 个 元 素 ， 最 后 a 会 在 该 落 数 退出 的 时 候 被 
销毁 。 假 如 我 们 像 下面 这 样 定义 a : 

a = [Jdef func!(): for i in range(5):a.append(i) 

虽然 可 以 在 画 数 中 对 全 局 变量 进行 赋值 操作 ， 但 是 那些 变量 必须 用 global 关 键 字 声明 成 全 局 的 
才 行 


In [489]: a = Noneln [490]: def bind_a_variable(): ...: global a ...: a =|[]...: bind a _variable() 
译注 9 ...:In [491]: print al] 


警告 : 我 常常 建议 人 们 不 要 频繁 使 用 global 关 键 字 。 因 为 全 局 变量 一 般 是 用 于 存放 系统 的 某 
些 状态 的 。 如 果 你 发 现 自己 用 了 很 多 ， 那 可 能 就 说 明 得 要 来 点 儿 面 向 对 象 编程 了 (即使 用 
类 ) 。 

可 以 在 任何 位 置 进 行 本 数 声明 ， 即 使 是 局 部 函数 〈 在 外 层 函 数 被 调用 之 后 才 会 被 动态 创建 出 
来 ) 也 是 可 以 的 : 


def outer function(x, y Zz): def inner _ function(a, b, c): pass pass 


在 上 面 的 代码 中 ，inner_function 在 outer_function 被 调用 之 前 是 不 存在 的 。 只 要 
outer_function 结 束 执行 ， 则 inner_function 将 会 立即 被 销毁 。 


各 个 嵌 套 的 内 层 加 数 可 以 访问 其 上 层 豆 数 的 局 部 命名 空间 ， 但 不 能 绑 定 新 变量 。 我 将 在 讲解 
闭 包 的 时 候 再 对 此 问题 进行 讨论 。 


严格 意义 上 来 说 ， 所 及 数 都 是 某 个 作用 域 的 局 部 责 数 ， 这 个 作用 域 可 能 刚好 就 是 模块 级 的 
作用 域 。 

返回 多 个 值 

在 我 第 一 次 用 Python 编程 时 (之 前 已 经 习惯 了 Java 和 C++) ， 最 喜欢 的 一 个 功能 是 : 函数 可 
以 返回 多 个 值 。 下 面 是 一 个 简单 的 例子 : 

deff():a=5b=6c=7 returna,b,ca,b,c=f() 

在 数据 分 析 和 其 他 科学 计算 应 用 中 ， 你 会 发 现 自己 常常 这 么 干 ， 因 为 许多 函数 都 可 能 会 有 多 
个 输出 在 该 男 数 内 部 计算 出 的 数据 结构 或 其 他 辅助 数据 ) 。 如 果 回忆 一 下 本 章 早 前 讲 过 的 
元 组 打包 和 拆 包 功 能 ， 你 可 能 会 明白 这 到 底 是 怎么 一 回 事 : 该 函数 其 实 只 返回 了 一 个 对 象 ， 
也 就 是 一 个 元 组 ， 最 后 该 元 组 会 被 拆 包 到 各 个 结果 变量 中 。 在 上 面 的 例子 中 ， 我 们 还 可 以 这 
样 写 : 


return_value = f() 


不 难看 出 ， 这 里 的 return_value 将 会 是 一 个 含有 3 个 返回 值 的 三 元 元 组 。 此 外 ， 还 有 一 种 非常 
具有 吸引 力 的 多 值 返 回 方式 一 返回 字典 : 


deff():a=5b=6c=7return{a':a,'b':b,'c':c} 
男 数 亦 为 对 象 
由 于 Python 范 数 都 是 对 象 ， 因 此 ， 在 其 他 语言 中 较 难 表达 的 一 些 设计 思想 在 Python 中 就 要 区 


单 很 多 了 。 假 设 我 们 有 下 面 这 样 一 个 字符 串 数组 ， 希 望 对 其 进行 一 些 数据 清理 工作 并 执行 一 
堆 转换 : 


states =[ Alabama ', 'Georgial!", 'Georgia', 'georgia ，FIOrlda'，'Ssouth carolina##', West 
virginia?] 

不 管 是 谁 ， 只 要 处理 过 由 用 户 提 交 的 调查 数据 ， 就 能 明白 这 种 乱七八糟 的 数据 是 怎么 一 回 
事 。 为 了 得 到 一 组 能 用 于 分 析 工 作 的 格式 统一 的 字符 串 ， 需 要 做 很 多 事情 : 去 除 空 白 符 、 删 
除 各 种 标点 符号 、 正 确 的 大 写 格 式 等 。 千 一 看 上 去 ， 我 们 可 能 会 写 出 下 面 这 样 的 代码 : 
import re # 正则 表达 式 模 块 def clean_strings(strings): result = [] for value in strings: value = 


value.strip() value = re.sub('[!#?]', ", value)# 移 除 标 点 符号 value = value.title() 
result.append(value) return result 


最 终结 果 如 下 所 示 : 


In [15]: clean_strings(states)Out[15]:['Alabama'", 'Georgia', 'Georgia', 'Georgia'", 'Florida,, 
'South Carolina', "West Virginia'] 


其 实 还 有 另外 一 种 不 错 的 办 法 : 将 需要 在 一 组 给 定 字符 串 上 执行 的 所 有 运算 做 成 一 个 列表 : 


def remove punctuation(value): return re.sub('[!#?]', ", value)clean_ops = [str.strip, 
remove_punctuation, strtitlel]def clean_strings(strings, ops): result = [] for value in strings: for 
function in ops: value = function(value) resultappend(value) return result 


然后 我 们 就 有 了 : 

In [22]: clean_strings(states, clean_ ops)Out[22]:['Alabama'", 'Georgia', 'Georgia'", 'Georgia,, 
'Florida', 'South Carolina', West Virginia] 

这 种 多 函数 模式 使 你 能 在 很 高 的 层次 上 轻松 修改 字符 串 的 转换 方式 。 此 时 的 clean_strings 也 更 
具 可 复 用 性 ! 

还 可 以 将 函数 用 作 其 他 画 数 的 参数 ， 上 比如 内 置 函数 ， 它 用 于 在 一 组 数据 上 应 用 一 

数 : 


In [23]: map(remove_punctuation, states)Out[23]:[ Alabama '， 'Georgia', 'Georgia', 'georgia,, 
'FIOrlda', 'south carolina'，West virginia'"] 


匿名 (lambda) 画 数 


Python 有 一 种 被 称 为 匿名 函数 或 ambda 画 数 的 东西 ， 这 其 实 是 一 种 非常 简单 的 函数 : 仅 由 单 
条 语句 组 成 ， 该 语句 的 结果 就 是 返回 值 。 它 们 是 通过 lambda 关 键 字 定义 的 ， 这 个 关键 字 没 
别 的 含义 ， 仅 仅 是 说 “我们 正在 声明 的 是 一 个 匿名 画 数 ”。 


def short_function(x): return x 2equiv_anon = lambda x: x 2 


本 书 其 余部 分 一 般 将 其 称 为 lambda 函 数 。 它 们 在 数据 分 析 工 作 中 非常 方便 ， 因 为 你 会 发 现 很 
i eae 9 数 作 为 参数 的 。 直接 传 入 lambda 辑 数 比 编写 完整 画 数 声明 要 少 输 的 
字 (也 更 清晰 ) ， 其 至 比 将 lambda 函 数 赋 值 给 一 个 变量 还 要 少 输 入 很 多 字 。 看 看 下 面 这 

导 有 些 傻 的 例子 


def apply_to_list(some _ list, f): return [f(x) for x in some _list]jints = [4, 0, 1, 5, 
6lapply_to_list(ints, lambda x: x * 2) 


虽然 你 可 以 直接 编写 [x *2for x in ints]， 但 是 这 里 我 们 可 以 非常 轻松 地 传 入 一 个 自 定义 运算 给 
apply_to_list 函 数 。 


再 来 看 另外 一 个 例子 。 假 设 有 一 组 字符 串 ， 你 想 要 根据 各 字符 串 不 同 字母 的 数量 对 其 进行 排 
序 : 


In [492]: strings = [foo', 'card', 'bar', 'aaaa', 'abab'] 
这 里 ， 我 们 可 以 传 入 一 个 lambda 画 数 到 列表 的 sort 方 法 : 


In [493]: strings.sort(key=lambda x: len(set(list(x))))In [494]: stringsOut[494]: [aaaa'，foo， 
'abab', "bar', 'card'] 


注意 : lambda 孙 数 之 所 以 会 被 称 为 匿名 汞 数 ， 原 因 之 一 就 是 这 种 加 数 对 象 本 身 是 没有 提供 名 
称 属性 的 。 

闭 包 : 返回 图 数 的 函数 

闭 包 (closure) 不 是 什么 很 可 怕 的 东西 。 如 果 用 对 了 地 方 ， 它 们 其 实 可 以 非常 强大 |! 简 而 言 


之 ， 闭 包 就 是 由 其 他 辑 数 动态 生成 并 返回 的 范 数 。 其 关键 性 质 是 ， 被 返回 的 责 数 可 以 访问 其 
创建 者 的 局 部 命名 空间 中 的 变量 。 下 面 是 一 个 非常 简单 的 例子 : 


def make_closure(a): def closure(): print('| know the secret: %d' % a) return closureclosure = 
make_closure(5) 


闭 包 和 标准 Python 函 数 之 间 的 区 别 在 于 : 即使 其 创建 者 已 经 执行 完毕 ， 闭 包 仍 能 继续 访问 其 
创建 者 的 局 部 命名 空间 。 因 此 ， 在 上 面 这 种 情况 中 ， 返 回 的 闭 包 将 可 打印 出 "| know the 
secret:5"。 虽然 闭 包 的 内 部 状态 〈 在 本 例 中 ， 只 有 值 a) 一 般 都 是 静态 的 ， 但 也 允许 使 用 可 变 
对 象 ( 如 字典 、 集 合 、 列 表 等 可 以 被 修改 的 对 象 ;。 例 如 ， 下 面 这 个 函数 可 以 返回 一 个 能 够 
记录 其 参数 ( 便 经 传人 的 一 切 参 数 ) 的 函数 : 


def make watcher(): have_seen = {} def has_been_seen(x): if x in have_seen: return True 
else: have_seen[x] = True return False return has_ been seen 


对 一 组 整数 使 用 该 函数 ， 可 以 得 到 : 


In [496]: watcher = make_ watcher()In [497]: vals = [5, 6, 1, 5, 1, 6, 3, 5]In [498]: [watcher(x) 
for x in vals]Out[498]: [False, False, False, True, True, True, False, True] 


但 是 要 注意 一 个 技术 限制 : 虽然 可 以 修改 任何 内 部 状态 对 象 ( 比 如 向 字典 添加 键 值 对 ) ， 但 
不 能 绑 定 外 层 画 数 作用 域 中 的 变量 。 一 个 解决 办 法 是 : 修改 字典 或 列表 ， 而 不 是 绑 定 变量 。 


def make_counter(): count = [0] def counter(): # 增加 并 返回 当前 的 count count[0] += 1 return 
count[0] return countercounter = make_counter() 


你 可 能 会 想 ， 这 到 底 有 什么 用 。 在 实际 工作 中 ， 你 可 以 编写 带 有 大 量 选 项 的 非常 一 般 化 的 范 
数 ， 然 后 再 组 装 出 更 简单 更 专门 化 的 画 数 。 下 面 这 个 例子 中 创建 了 一 个 字符 串 格 式 化 落 数 : 


def format_and_pad(template, space): def formatter(x): return (template % x).rjust(space) 
return formatter 


然后 ， 你 可 以 创建 一 个 始终 返回 15 位 字符 串 的 浮 点 数 格式 化 器 ， 如 下 所 示 : 
In [500]: fmt = format and _pad(%.4f, 15)In [501]: fmt(1.756)Out[501]: ' 1.7560" 


如 果 多 学 一 些 Python 面 向 对 象 编程 方面 的 知识 ， 你 就 会 发 现 这 种 模式 其 实 也 能 用 类 来 实现 
(虽然 会 更 号 一 点 ) 。 


扩展 调用 语法 和 args、 水 wargs 


在 Python 中 ， 画 数 参 数 的 工作 方式 其 实 很 简单 。 当 你 编写 func(a,b,c,d=some,e=value) 时 ， 位 
置 和 关键 字 参 数 其 实 分 别 是 被 打包 成 元 组 和 字典 的 。 函 数 实际 接收 到 的 是 一 个 元 组 args 和 一 
个 字典 kwargs， 并 在 内 部 完成 如 下 转换 : 


a,b,c=argsd = kwargs.get(d', d_default value)e = kwargs.get(e', e_default value) 


这 一 切 都 是 在 幕后 愉 展 发 生 的 。 当 然 ， 它 还 会 执行 一 些 错 误 检查 ， 还 允许 你 将 位 置 参数 当成 
关键 字 参 数 那样 进行 指定 〈 即 使 它们 在 画 数 定义 中 并 不 是 关键 字 参 数 ) 。 


def say_hello then call f(f, args, *“*kwargs): print args is', args print ‘kwargs is', kwargs 
print("Hello! Now I'm going to call %s" % f) return f(args, **kwargs)def g(x, y, z=1): return (x 
+y)/z 


然后 ， 如 果 我 们 通过 say_hello_then_call f 调 用 g， 就 会 得 到 : 


In [8]: say_hello_then_call_ f(g, 1, 2, z=5.)args is (1, 2)kwargs is {z': 5.0}Hello! Now lm going 
to call Out[8]: 0.6 


柯 里 化 : 部 分 参数 应 用 


柯 里 化 (currying) 是 一 个 有 趣 的 计算 机 科学 术语 ， 它 指 的 是 通过 “部 分 参数 应 用 ”(partial 
argument application) 从 现 有 画 数 派生 出 新 函数 的 技术 。 假 设 我 们 有 一 个 执行 两 数 相 加 的 简 
单 国 数 : 


def add_numbers(x, y): return x+y 


通过 这 个 函数 ， 我 们 可 以 派生 出 一 个 新 的 只 有 一 个 参数 的 函数 一 add _ five， 它 用 于 对 其 参数 
加 5 : 


add five = lambda y: add_numbers(5, y) 


add_numbers 的 第 二 个 参数 称 为 “ 柯 里 化 的 ”(curried) 。 这 里 没什么 特别 花哨 的 东西 ， 因 为 我 
们 其 实 就 只 是 定义 了 一 个 可 以 调用 现 有 阔 数 的 新 豆 数 而 已 。 内 置 的 functools 模 块 可 以 用 partial 
函数 将 此 过 程 简 化 : 


from functools import partialadd five = partial(add_numbers, 5) 


在 讨论 pandas 和 时 间 序 列 数据 时 ， 我 们 将 会 用 该 技术 去 创建 专门 的 数据 序列 转换 画 数 : 


计算 时 间 序 列 x 的 60 日 移动 平均 ma60 = 
lambda x: pandas.rolling mean(x, 60)# 计 
算 data 中 所 有 时 间 序 列 的 60 日 移动 平均 
data.apply(ma60) 


生成 器 


能 以 一 种 一 致 的 方式 对 序列 进行 迭代 (上 比 如 列表 中 的 对 象 或 文件 中 的 行 ) 是 Python 的 一 个 重 
要 特点 。 这 是 通过 一 种 叫做 迭代 器 协议 (iterator protocol， 它 是 一 种 使 对 象 可 迭代 的 通用 方 
式 ) 的 方式 实现 的 。 比 如 说 ， 对 字典 进行 迭代 可 以 得 到 其 所 有 的 键 : 


In [502]: some dict = fa': 1, 'b': 2, 'c': 3}In [503]: for key in some dict: .… print key, 译注 10a c 
b 


当 你 编写 for key in some_dict 时 ，Python 解 释 器 首先 会 尝试 从 some_dict 创 建 一 个 迭代 器 : 
In [504]: dict_iterator = iter(some dict)In [505]: dict_iteratorOut[505]: 


迭代 器 是 一 种 特殊 对 象 ， 它 可 以 在 诸如 for 循 环 之 类 的 上 下 文中 向 Python 解 释 器 输送 对 象 。 大 
部 分 能 接受 列表 之 类 的 对 象 的 方法 也 都 可 以 接受 任何 可 迭代 对 象 。 比 如 min、max、sum 等 内 
置 方法 以 及 list、tuple 等 类 型 构造 器 : 


In [506]: list(dict_iterator)Out[506]: ['a', 'c', 'b"] 

生成 器 (generator) 是 构造 新 的 可 迭代 对 象 的 一 种 简单 方式 。 一 般 的 函数 执行 之 后 只 会 返回 
单个 值 ， 而 生成 器 则 是 以 延迟 的 方式 返回 一 个 值 序列 ， 即 每 返回 一 个 值 之 后 暂停 ， 直 到 下 一 
个 值 被 请 求 时 再 继续 。 要 创建 一 个 生成 器 ， 只 需 和 将 函数 中 的 return 蔡 换 为 yeild 即 可 : 

def squares(n=10): foriin xrange(1, n + 1): print 'Generating squares from 1 to %d' % (n 2) 
译注 11 yield i 2 

调用 该 生成 器 时 ， 没 有 任何 代码 会 被 立即 执行 : 

In [2]: gen = squares()In [3]: genOut[3]: 

直到 你 从 该 生成 器 中 请 求 元 素 时 ， 它 才 会 开始 执行 其 代码 : 


In [4]: for x in gen: ...: print x, ...:Generating squares from 0 to 1001 4 9 16 25 36 49 64 81 
100 


假设 我 们 希望 找 出 "将 1 美元 〈 即 100 美 分 ) 兑换 成 任意 一 组 硬币 "的 所 有 唯一 方式 。 你 可 能 会 想 
出 很 多 种 实现 办 法 (包括 “已 找到 的 唯一 组 合 ” 的 保存 方式 ) 。 下 面 我 们 编写 一 个 生成 器 来 产生 
这 样 的 硬币 组 合 (硬币 面额 用 整数 表示 ) 

def make_change(amount, coins=[1, 5, 10, 25], hand=None): hand = [] if hand is None else 
hand if amount == 0: yield hand for coin in coins: # 确保 我 们 给 出 的 硬币 没有 超过 总 额 ， 且 组 
合 是 唯一 的 if coin > amount or (len(hand) > 0 and hand[-1] < coin): continue for result in 
make_change(amount - coin, coins=coins, hand=hand + [coin]): yield result 


这 个 算法 的 细节 并 不 重要 (你 能 想 出 一 个 更 短 点 的 办 法 吗 ? ) 。 然 后 我 们 可 以 编写 : 


In [508]: for way in make _change(100, coins=[10, 25, 50]): ...: print way[10, 10, 10, 10, 10， 
10, 10, 10, 10, 10][25, 25, 10, 10, 10, 10, 10][25, 25, 25, 25][50, 10, 10, 10, 10, 10][50, 25， 
25][50, 50]In [509]: len(list(make_change(100)))Out[509]: 242 


生成 器 表达 式 


生成 器 表达 式 (generator expression) 是 构造 生成 器 的 最 简单 方式 。 生 成 器 也 有 一 个 类 似 于 
列表 、 字 典 、 和 集合 推导 式 的 东西 ， 其 创建 方式 为 ， 把 列表 推导 式 两 站 Me ry 


In [510]: gen = (x ** 2 for x in xrange(100))In [511]: genOut[511]: 

它 跟 下 面 这 个 见长 得 多 的 生成 器 是 完全 等 价 的 : 

def _ make gen(): for x in xrange(100): yield x ** 2gen =_make gen() 
生成 器 表达 式 可 用 于 任何 接受 生成 器 的 Python 本 数 : 


In [512]: sum(x 2 for x in xrange(100))Out[512]: 328350In [513]: dict((i, i 2) for i in 
xrange(5))Out[513]: {0: 0, 1: 1, 2: 4, 3: 9, 4: 16} 


itertools 模 块 


标准 库 itertools 模 块 中 有 一 组 用 于 许多 常见 数据 算法 的 生成 器 。 例 如 ，groupby 可 以 接受 任何 
序列 和 一 个 函数 。 它 根据 函数 的 返回 值 对 序列 中 的 连续 元 素 进 行 分 组 。 下 面 是 一 个 例子 : 


In [514]: import itertoolsln [515]: first_letter = lambda x: x[0]ln [516]: names = ['Alan', Adam，， 
Wes，Will, 'Albert', 'Steven']In [517]: for letter, names in itertools.groupby(names， 
first_letter): ...: print letter, list(names) # names 是 一 个 生成 器 A ['Alan', 'Adam']W [Wes， 
"Will]A ['Albert]S ['Steven! 


表 A-4 中 列 出 了 一 些 我 经 常用 到 的 itertools 辑 数 。 


表 A-4: 一 些 常用 的 itertools 函 数 


函数 说 明 

imap(func, *iterables) 内 置 函数 map 的 生成 器 版 ， 将 func 应 用 于 参数 序列 的 各 个 
打包 元 组 

ifilter(func, iterable) 内 置 匀 数 filter 的 生成 裔 版 ， 当 func(x) 为 TTue 时 输出 元 素 x 


表 A-4: 一 些 常用 的 itertools 函 数 ( 续 ) 


函数 说 明 

combinations(iterable, k) 生成 一 个 由 iterable 中 所 有 可 能 的 k 元 元 组 组 成 的 序列 (不 
考虑 顺序 ) 

permutations(iterable, k) es 有 可 能 的 k 元 元 组 组 成 的 序列 ( 考 
虑 顺序 


groupbyl(iterablel, keyfunc) 为 每 个 唯一 键 生成 一 个 (key, sub-iterator) 


注意 : 许多 在 Python 2 (itertools) 中 产生 列表 的 内 置 函 数 (如 zip、map、filter 等 ) ， 在 
Python 3 中 都 被 换 成 了 其 生成 器 版 。 


文件 和 操作 系统 


本 书 的 代码 示例 大 多 使 用 诸如 pandas.read_csv 之 类 的 高 级 工具 将 磁盘 上 的 数据 文件 读 入 
Python 数据 结构 。 但 我 们 还 是 需要 了 解 一 些 有 关 Python 文 件 处 理 方 面 的 基础 知识 。 好 在 它 本 
来 就 很 简单 ， 这 也 是 Python 在 文本 和 文件 饼 理 方 面 的 如 此 流行 的 原因 之 一 。 


为 了 打开 一 个 文件 以 便 读 写 ， 可 以 使 用 内 置 的 open 画 数 以 及 一 个 相对 或 绝对 的 文件 路 径 : 
In [518]: path = 'ch13/segismundo.txt'In [519]: f = open(path) 


默认 情况 下 ， 文 件 是 以 只 读 模 式 〈r) 打开 的 。 然 后 ， 我 们 就 可 以 像 处 理 列表 那 桩 来 处 理 这 个 
文件 句柄 f 了 ， 比 如 对 行进 行 迭 代 : 


for line in f: pass 


从 文件 中 取出 的 行 都 带 有 完整 的 行 结束 符 (EOL) ， 因 此 你 常常 会 看 到 下 面 这 样 的 代码 (得 
到 一 组 没有 EOL 的 行 


In [520]: lines = [x.rstrip() for x in open(path)]In [521]: linesOut[521]:[Sue\xc3\xb1a el rico en 
Su riqueza,', 'que mM\xc3\xa1s cuidados le ofrece;', ", 'sue\xc3\xb1a el pobre que padece,', 'su 
miseria y Su pobreza;', ", 'sue\xc3\xb1a el que a medrar empieza,'", 'sue\xc3\xb1a el que 
afana y pretende,'", 'sue\xc3\xb1a el que agravia y ofende,', ", 'y en el mundo, en 


conclusi\xc3\xb3n,", 'todos sue\xc3\xb1an lo que son,', 'aunque ninguno lo entiende.", "] 


如 果 输 入 f =open(path,'w')， 就 会 有 一 个 新 文件 被 创建 在 ch13/segismundo.txt， 并 覆盖 掉 该 位 
置 原 来 的 任何 数据 。 表 A-5 列 出 了 所 有 可 用 的 文件 读 写 模式 。 


表 A-5:; Python 的 文件 模式 


模式 ”说明 

只 读 模式 

w 只 写 模式 。 创 建新 文件 (删除 同名 的 任何 文件 生生 12) 

a 附加 到 现 有 文件 (如果 文件 不 存在 则 创建 一 个 ) 

[十 读 写 模式 

b 附加 说 明 某 模式 用 于 二 进 制 文件 ， 即 'rb' 或 'wb' 

U 通用 换行 模式 。 单 独 使 用 'U' 或 附加 到 其 他 读 模式 (如 'rU') 


译注 12 : 这 的 “名 "包括 路 径 。 


要 将 文本 写 入 文件 ， 可 以 使 用 该 文件 的 write 或 writelines 方 法 。 例 如 ， 我 们 可 以 创建 一 个 无 空 
行 版 的 prof_mod.py 


译注 13 


， 如 下 所 示 : 


In [522]: with open('tmp.txt', 'w') as handle: .....: handle.writelines(x for x in open(path) if 
len(x) > 1)In [523]: open(tmp.txt).readlines()Out[523]:[Sue\xc3\xb1a el rico en su 
riqueza,\n','que mM\xc3\xa1s cuidados le ofrece;\n','sue\xc3\xb1a el pobre que padece\n ,Su 
miseria y Su pobreza;\n','sue\xc3\xb1a el que a medrar empieza,\n','sue\xc3\xb1a el que 
afana y pretende,\n','sue\xc3\xb1a el que agravia y ofende,\n','y en el mundo, en 
conclusi\xc3\xb3n,\n','todos sue\xc3\xb1an lo que son,\n','aunque ninguno lo entiende.\n] 


表 A-6 列 出 了 一 些 最 常用 的 文件 方法 。 
表 A-6: 重要 的 Python 文件 方法 或 属性 


方法 说 明 

read([size]) 以 字符 串 形 式 返 回 文件 数据 ， 可 选 的 size 参 数 用 于 说 明 读 取 的 字 节 数 
readlines([size]) ”将 文件 返回 为 行列 表 ， 可 选 参数 Size 

writelstn) 将 字符 串 写 入 文件 

closel) 关闭 句柄 

flush() 清空 内 部 MO 缓存 区 ， 并 将 数据 强行 写 回 磁盘 

seek{pos) 移动 到 指定 的 文件 位 置 (整数 ) 

tell() 以 整数 形式 返回 当前 文件 位 置 

closed 如 果 文 件 已 关闭 ， 则 为 True 

译注 1 

: 这 里 只 是 作者 起 的 名 字 而 已 ， 不 必 介 怀 ， 你 完全 可 以 给 它 起 个 " 真 命 天 子 类 型 "之 类 的 名 字 。 
其 实 它 是 一 个 哲学 和 逻辑 学 概念 ， 就 是 说 "对 于 一 只 鸟 类 动物 ， 不 用 管 它 到 底 是 不 是 约 子 ， 只 
要 看 它 像 不 像 子 就 可 以 了 ”。 


译注 2 : 也 就 是 定义 别名 。 
译注 3 : 在 酌 数 式 编 程 中 ， 也 常 译作 惰性 求 值 。 
译注 4 


: 这 个 词 指 的 是 “不 能 修改 原 内 存 块 的 数据 "也 就 是 说 ， 即 使 修改 操作 成 功 了 ， 也 只 是 创建 了 一 
个 新 对 象 并 将 其 引用 赋值 给 原 变量 而 已 。 


译注 5 : 作者 用 的 比 我 现在 用 的 版 本 还 者。 所 以 在 阅读 本 书 的 过 程 中 有 些 例子 的 计算 结果 不 一 
定 跟 书 上 的 完全 一 致 。 


译注 6 
: 分 子 也 可 以 的 。 
译注 7 
: 或 者 翻译 成 可 散 列 性 。 


译注 8 : 应 该 是 ">="， 因 为 原文 是 "two and more"。 


: 应 该 放 到 for 循 环 之 前 ， 否 则 后 面 的 执行 结果 与 书 上 的 不 一 样 。 
译注 13 

: 应 该 是 segismundo.txt。 
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